CN108135485B

CN108135485B - 通过语音分析评估肺部病症

Info

Publication number: CN108135485B
Application number: CN201680057768.XA
Authority: CN
Inventors: 柴姆·罗坦; 西格尔·克雷默-塔尔; 阿维夫·罗坦; 泽夫·施利克; 阿维诺姆·歌慕尔; 耶胡达·思尼尔; 约纳坦·萨松; 玛格丽塔·谢因科尔曼
Original assignee: Cotio Medical
Current assignee: Cotio Medical
Priority date: 2015-10-08
Filing date: 2016-10-05
Publication date: 2021-08-17
Anticipated expiration: 2036-10-05
Also published as: US20190080803A1; EP3359023A4; JP6780182B2; US10796805B2; CN108135485A; AU2016333816B2; JP2018534026A; WO2017060828A1; EP3359023A1; AU2016333816A1

Abstract

所描述的实施例包括包含网络接口(28)和处理器(30)的装置。处理器被配置为经由网络接口接收患有与过量流体的积聚有关的肺部病症的受试者(22)的语音，通过分析语音来识别语音的一个或更多个语音相关参数，响应于语音相关参数来评估肺部病症的状态，并且响应于此而生成指示肺部病症的状态的输出。还描述了其他实施例。

Description

通过语音分析评估肺部病症

相关申请的交叉引用

本申请要求于2015年10月8日提交的标题为“Assessment of a pulmonarycondition using voice analysis”的美国临时申请第62/238,732号的权益，其公开内容通过引用并入本文。

发明领域

本发明的实施例涉及对医疗病症(condition)特别是肺部病症的诊断和治疗。

背景

肺水肿是流体在肺的实质和气室(air spaces)中的积聚。它会导致气体交换受损，并可能导致呼吸衰竭。

胸腔积液是积聚在胸膜腔内的过量流体，围绕肺的充满流体的空间。这种过量的流体会通过限制肺的扩张来损害呼吸。

美国专利申请公开2015/0073306(其公开内容通过引用并入本文)描述了一种操作计算设备以处理患者声音的方法，该方法包括以下步骤：从所述患者声音的片段中提取特征；以及基于所提取的特征和预定标准将片段分类为咳嗽或非咳嗽声音；以及基于被分类为咳嗽声音的患者声音的片段，在计算设备的控制下在显示器上呈现疾病相关状态的诊断。

美国专利第7,267,652号(其公开内容通过引用并入本文)描述了用于处理通常得自于呼吸体积描记术且特别是得自于安装在用于动态记录的服装上的呼吸感应体积描记传感器的呼吸信号的系统和方法。该系统和方法提供信号滤波以进行伪影去除，并校准传感器数据以产生指示肺容积的输出。该参考文献还描述了一种系统和方法，其针对处理肺容积信号，然而其被测量或导出以提供呼吸参数的确定和选定的呼吸事件的识别。

美国专利申请公开2011/0184250(其公开内容通过引用并入本文)描述了用于辅助多个患者管理慢性健康疾病的计算机实现的方法和系统。对于每个患者，该方法包括：(a)从患者或患者护理网络的成员接收关于在给定的未来时间段内的预期患者活动的信息；(b)确定在给定的未来时间段的预期患者活动期间患者的周围环境中的预期瞬时局部环境条件；(c)基于期望的患者控制设定点范围、预期的患者活动和预期的瞬时局部环境条件，使用所存储的患者的计算机模型来预测患者的健康恶化；以及(d)在给定的未来时间段之前主动向患者或患者护理网络的成员发送消息，该消息向患者或患者护理网络的成员警告患者的预测的健康恶化并识别一个或更多个纠正措施，以使患者避免或减轻预测的健康恶化。

PCT公开WO2014/037843(其公开内容通过引用并入本文)描述了用于测量用户的肺活量和耐力以检测慢性心力衰竭、COPD或哮喘的计算机化方法和系统，其包括：在用户的移动通信设备上提供客户端应用，所述客户端应用包括可执行计算机代码，该代码用于：指示用户在呼气时用空气填充他的肺并且发出在一定范围的响度(分贝)内的声音；由移动通信设备接收和记录所述用户的声音；停止声音的记录；测量在所述响度范围内的声音接收时间的长度，所述时间与用户的肺容积成比例；以及在移动通信设备屏幕上显示接收声音的时间结果的长度。

发明概述

根据本发明的一些实施例，提供了包括网络接口和处理器的装置。处理器被配置为经由网络接口接收患有与过量流体的积聚相关的肺部病症的受试者的语音，通过分析语音识别语音的一个或更多个语音相关参数，响应于语音相关参数评估肺部病症的状态，并且响应于此而生成指示肺部病症的状态的输出。

在一些实施例中，处理器被配置为通过对语音执行频谱分析来分析语音。

在一些实施例中，处理器被配置为通过对语音执行倒谱分析来分析语音。

在一些实施例中，处理器还被配置为通过分析语音来识别语音的含义，并且处理器被配置为响应于含义来评估状态。

在一些实施例中，处理器还被配置为提示受试者通过口头回答问题来提供语音。

在一些实施例中，处理器被配置为通过以下方式提示受试者提供语音：

给受试者发出呼叫，以及

在受试者接听呼叫时，向该受试者提出问题。

在一些实施例中，病症选自由肺水肿和胸腔积液组成的组。

在一些实施例中，处理器被配置为通过提供指示状态恶化的警报来生成输出。

在一些实施例中，语音相关参数包括语音的至少一个共振峰频率。

在一些实施例中，处理器被配置为通过将共振峰频率与基线频率进行比较来评估肺部病症的状态。

在一些实施例中，处理器被配置为通过以下动作来分析语音：

对于表示语音的时域信号的每个帧：

计算帧的倒谱，

随后，将低通倒谱提升器(lifter)应用于帧的倒谱，

随后，将提升的倒谱逆变换到频域，以及

随后，通过识别逆变换的提升倒谱的峰值来识别帧的共振峰频率，以及

基于帧的各个共振峰频率来识别共振峰频率。

基于从由以下项组成的组中选择的一个或更多个度量来选择语音中的至少一部分以用于分析：语音的能量级别、语音的音调的稳定性、计算语音的音调的置信度以及语音的共振峰频率的稳定性，以及

随后，分析语音的所选择的部分。

在一些实施例中，处理器被配置为通过将机器学习模型应用于语音相关参数来评估肺部病症的状态。

在一些实施例中，语音相关参数包括一组梅尔频率倒谱系数(MFCC)。

在一些实施例中，语音相关参数包括一组梅尔频率倒谱系数(MFCC)的导数。

在一些实施例中，语音相关参数包括一组相对谱变换-感知线性预测(RASTA-PLP)倒谱分量。

在一些实施例中，语音相关参数包括一组相对谱变换-感知线性预测(RASTA-PLP)频谱分量。

在一些实施例中，处理器被配置为在不识别语音中的任何咳嗽声音以及不识别语音中的任何喘息声音的情况下评估肺部病症的状态。

在一些实施例中，处理器被配置为在不首先提示受试者提供语音的情况下分析受试者的语音。

根据本发明的一些实施例，还提供了一种方法，该方法包括使用处理器通过分析患有与过量流体的积聚有关的肺部病症的受试者的语音，识别语音的一个或更多个语音相关参数。该方法还包括响应于语音相关参数而自动评估肺部病症的状态，并且响应于此，生成指示肺部病症的状态的输出。

根据本发明的一些实施例，还提供包括移动通信终端和服务器的系统。该服务器包括处理器，该处理器被配置为从移动通信终端接收患有与过量流体的积聚有关的肺部病症的受试者的语音，通过分析语音来识别语音的一个或更多个语音相关参数，响应于语音相关参数评估肺部病症的状态，并且响应于此而生成指示肺部病症的状态的输出。

根据本发明的一些实施例，还提供了一种计算机软件产品，该计算机软件产品包括其中存储有程序指令的有形的非暂时性计算机可读介质。指令当由处理器读取时使该处理器接收患有与过量流体的积聚有关的肺部病症的受试者的语音，通过分析语音来识别语音的一个或更多个语音相关参数，响应于语音相关参数来评估肺部病症的状态，并且响应于此而生成指示肺部病症的状态的输出。

根据本发明的一些实施例，还提供包括声传感器和处理器的装置。处理器被配置为经由声传感器接收患有与过量流体的积聚相关的肺部病症的受试者的语音，通过分析语音来识别语音的一个或更多个语音相关参数，响应于语音相关参数来评估肺部病症的状态，并且响应于此而生成指示肺部病症的状态的输出。

根据结合附图进行的本发明的实施例的以下详细描述，本发明将得到更完全地理解，其中：

附图简述

图1是根据本发明的一些实施例的用于评估肺部病症的状态的系统的示意图；

图2是根据本发明的一些实施例的由处理器执行的预处理方法的示意图；以及

图3是根据本发明的一些实施例的用于分析受试者的语音的方法的示意图。

具体实施方式

综述

本发明的实施例提供了评估与肺中或肺附近过量流体的积聚有关的肺部病症(例如肺水肿或胸腔积液病症)的状态的方法和系统。在一些实施例中，评估肺部病症的状态的系统包括智能电话和远程服务器。智能电话会在受试者说话时记录该受试者，然后将记录的语音信号发送到远程服务器以进行分析。通过自动分析信号，远程服务器识别语音的一个或更多个语音相关参数，并且响应于参数，评估病症的状态。然后，服务器生成对智能电话的输出，其又驱动智能电话生成输出，如视觉输出，该输出指示病症的状态。可选地或另外地，在受试者的病症恶化的情况下，服务器可以如下所述地向紧急呼叫中心和/或受试者的医师或护理人员警告恶化。

通常，评估所基于的语音相关参数包括语音的频谱和/或倒谱特性，诸如语音的至少一个共振峰频率。尽管共振峰频率通常与声道或上呼吸道相关联，但本发明的实施例利用以下观察结果：共振峰频率的变化也可以指示存在于实质、胸膜腔或解剖结构中属于或靠近肺的其他部位中的流体的量的变化。特别是，已经观察到共振峰频率的增加表明流体的量增加，反之亦然。因此，系统可以基于共振峰频率的增加来识别出病症状态的恶化，反之亦然。

可选地或另外地，系统可以通过将机器学习模型应用于从语音信号提取的特定参数或“特征”来评估病症的状态。这样的模型可以包括回归器，其输出指示状态的数字。例如，回归器可以输出指示相对于基线的肺内或肺附近的估计的流体量的数字。可选地或另外地，这样的模型可以包括分类器，该分类器对肺部病症的当前状态进行分类，和/或基于肺部病症的当前状态对受试者的当前状态进行分类。例如，这样的分类器可以将受试者分类为“需要透析”或“不需要透析”。

要强调的是，本发明的实施例不一定需要识别咳嗽声音、喘息声音、呼吸声音(例如咯咯声)或任何其他非语音相关参数，以评估肺部病症的状态。相反，评估可以仅基于语音相关参数(诸如受试者的语音的共振峰频率)和/或本文描述的任何其他语音相关参数。此外，不一定需要在任何特定的时间提示受试者发出任何特定的声音、说出任何特定的词或者甚至自然地说出。相反，该系统可以分析在受试者的智能电话上从他的正常日常对话获得的口语句子。(尽管如此，在一些实施例中，可以提示受试者发出特定的声音和/或说出特定的词，特别是如果对受试者的“自然”语音的分析是不确定的话)。

一般而言，本文描述的实施例有助于对受试者病症的恶化的早期检测和干预，使得受试者的住院治疗可以不是必需的。例如，本文描述的实施例有助于评估受试者正在服用的特定类型和/或剂量的药物的有效性，使得如果观察到恶化，则可以在需要住院治疗之前调整特定类型和/或剂量的药物。

系统描述

首先参考图1，其是根据本发明的一些实施例的用于评估肺部病症的状态的系统20的示意图。系统20包括用于通信和/或计算的设备(诸如智能电话24或其他移动通信终端)以及服务器26。患有诸如肺水肿或胸腔积液的肺部病症的受试者22通常在受试者的正常日常对话活动过程中对着智能电话24讲话。智能电话将受试者的语音传输到服务器26，服务器26然后如下面进一步描述地分析语音，以评估肺部病症的状态。(这样的分析可以离线进行，或者在受试者说话时实时进行。)服务器然后将分析结果返回给智能电话，智能电话然后生成指示肺部病症的状态的输出，例如音频和/或视觉输出。例如，响应于服务器识别出状态恶化，服务器可以通过智能电话提供指示恶化的警报，和/或指示受试者与他的医师谈话、服用他的处方药和/或调整服用药物的类型或增加服药剂量。相反，响应于受试者状态的改善或稳定，系统可以建议减少药物剂量。

在一些实施例中，服务器被配置为可选地或者除了将诸如分析的结果和/或警报等输出传送给受试者的智能电话之外还将这些输出传送给远程终端。因此，例如，服务器可以将输出传送给受试者的医师、护理者、保险公司或雇主，或者传送给医院、紧急呼叫中心或数据中心。可选地或另外地，智能电话可以将输出传送到这样的远程终端。

在一些实施例中，智能电话被配置为控制药物泵。在这样的实施例中，响应于受试者病症的恶化，智能电话可以自动增加通过泵输送到受试者的药物剂量，而不必产生警报。随后，可以进行后续分析以确定剂量增加是否成功。如果剂量增加不成功，则可以产生警报。可选地或另外地，智能电话可以被配置为响应于分析的结果来控制利尿泵；例如，智能电话可自动更改泵的工作频率。

一般来说，对恶化的响应通常取决于恶化的程度。例如，对于相对小的恶化，系统可以建议或自动实施增加对受试者的语音进行分析的频率，和/或扩展分析以识别可能与受试者的病症相关的附加参数，而不必产生警报。对于更大的恶化，可以产生警报，和/或系统可以建议或自动实施诸如利尿剂的药物剂量的增加。可选地或另外地，系统可以建议受试者看医生。在更极端的情况下，系统可以自动联系紧急呼叫中心。

通常，服务器26远离受试者22，例如，驻留“在云中”。服务器包括诸如网络接口控制器(NIC)28等网络接口，其从智能电话接收输入并将输出传输到智能电话。服务器还包括处理器30，处理器30基于经由NIC 28从智能电话接收的输入来计算相关输出，并且经由NIC28将这些输出返回给智能电话。类似地，智能电话包括处理器34和诸如无线收发器(TCVR)32等网络接口，其由处理器34用来与服务器交换通信。智能电话还包括声传感器，其被配置为接收由受试者发出的声音。

在可选实施例中，本地处理器(诸如处理器34)或另一本地计算设备(诸如膝上型计算机或台式计算机)的处理器处理受试者的语音。例如，受试者可以对属于膝上型计算机的麦克风讲话，并且膝上型计算机的处理器然后可以处理从麦克风得到的语音信号。

通常，处理器34通过执行由专用软件应用提供的程序指令来执行本文所述的相关功能。软件应用通常由处理器在后台连续运行，使得受试者可以在应用运行时继续正常使用智能电话。在受试者开始对着电话讲话时，应用在受试者不一定注意的情况下开始记录和/或传输受试者的语音。可选地，应用可以由受试者手动激活，和/或可以在受试者发起或应答呼叫时由处理器自动激活。

通常，每当从最近的分析已经过去了特定持续时间时，或者每当服务器或受试者请求分析时，应用就指示处理器34向服务器发送语音信号以用于分析。处理器34然后可以等待受试者参与电话呼叫，在该点处，在接收到语音信号之后，处理器可以将语音信号发送到服务器。可选地，处理器可以(例如，通过在智能电话显示器上显示消息)提示受试者对智能电话讲话，使得可以获得语音信号。在一些实施例中，服务器自动向受试者发出呼叫(通过自动呼叫智能电话)，然后当受试者接听呼叫时，提示受试者讲话。例如，服务器可以向该受试者提出问题，例如“你今天吃药了吗？”(问题可被记录或语音合成)。在接收到受试者的答案后，服务器可以如下所述地分析答案的意思和/或声音特性。

可选地，可以提示受试者以任何其他合适的方式讲话，例如通过从医务人员接收指令这样做。在一些实施例中，可以例如通过智能电话提示受试者在讲话之前执行特定动作，诸如迈一定数量的步伐或爬一定数量的楼梯。

通常，如上所述，处理器30分析受试者的自然、“自由”的语音。然而，在一些情况下，可以例如通过处理器34提示受试者讲述已经发现有助于本文所述的分析的特定词或句子，并且然后可以将这些词或句子传送给服务器以供分析。(每次执行分析时可以使用相同的特定词或句子，以便于更有效地评估受试者的病症。)

在一些实施例中，受试者的语音的含义(即，语义内容)被自动识别，并且响应于该含义来执行对病症状态的评估。例如，可以例如通过智能电话提示受试者通过口头回答特定问题来提供语音。然后，受试者对该问题的口头答复被分析，既用于识别本文描述的语音相关参数——其描述答复的声音特性(诸如频谱和/或倒谱特性)，又用于答复的含义。(问题可以在视觉上在智能电话的显示器上和/或听觉上提出。)这样的问题的示例包括“你今天吃药了吗？”、“你感觉如何？”和“你今天活动程度怎么样？”。通过识别受试者答案的声音特性和含义，可以更好地评估受试者的病症的状态。(在这样的实施例中，可以要求受试者从预定的一组候选答案中选择答案，以促进分析。)例如，如果受试者对“你今天吃药了吗？”这个问题回答“是”，但语音相关参数表明受试者的病症恶化，那么处理器可以确定对受试者开处方的药物的剂量不够高。

在一些情况下，处理器30可以分析特定的、可能无意义的声音，诸如延长的“ahh”。(智能电话的处理器34可以被配置为提示受试者发出这种声音，一旦从服务器接收到这样做的请求)。在分析这些声音时，处理器30可识别本文所述的相关参数中的任何一个或更多个。然后可以使用这些参数，可选地结合从受试者的自然语音获得的一个或更多个其他参数，来评估受试者病症的状态。

通常，处理器30可以在以任何合适的间隔分开的任何合适的预定时间分析受试者的语音。例如，处理器可以在住院治疗后(当受试者的病症相对稳定时)立即、住院治疗一周后以及住院治疗三周后分析受试者的语音。可选地，例如，处理器可以(例如在受试者出院后开始)每天或每隔一天分析受试者的语音。在一些实施例中，分析时间表根据受试者对受试者病症的感知而被定制；例如，可以在受试者感知到受试者病症的改善或恶化时进行分析。

通常，处理器30和处理器34中的每一个可以被实现为单个处理器，或者被实现为协作联网或集群的处理器集合。处理器30和处理器34中的每一个通常是编程的数字计算设备，其包括中央处理单元(CPU)、随机存取存储器(RAM)、诸如硬盘驱动器或CD ROM驱动器等非易失性辅助储存器、网络接口和/或外围设备。程序代码(包括软件程序和/或数据)被加载到RAM中以供CPU执行和处理，并且结果被生成以用于显示、输出、传输或存储，如本领域中已知的那样。程序代码和/或数据可通过网络以电子形式下载到处理器，例如，或者可选地或另外，其可以被提供和/或储存在非暂时性有形介质(诸如，磁存储器、光存储器或电子存储器)上。这种程序代码和/或数据在被提供给处理器时产生机器或专用计算机，其被配置为执行本文所述的任务。

现在参考图2，其是根据本发明的一些实施例的由处理器30执行的预处理方法的示意图。

在一些实施例中，在分析从智能电话接收的语音信号之前，处理器30预处理语音信号，以便识别信号中最适合于分析的那些部分。图2在左侧示出了从智能电话接收的时域中的原始语音信号36。通常，处理器首先将信号36分成多个(可能重叠的)帧，其中每个帧包括几个样本。(例如，假设采样率为8kHz，则40ms的帧将包含320个样本。)然后，处理器从信号36中导出一个或更多个度量，这些度量被处理器用来选择信号中最适合于分析的那些部分。

例如，处理器可以计算语音信号的能量级别38，其例如以相对于信号中的最大能量级别的对数刻度表示。处理器然后可以选择用于分析的信号中其能量级别高于特定阈值40的最大连续部分。可选地或另外地，处理器可以计算语音信号的音调42以及相应的置信度水平44，其指示用于进行音调计算的置信度。处理器然后可以基于音调值和/或音调置信度水平来选择用于分析的信号部分。例如，处理器可以选择信号的最大连续部分，在该部分中音调的稳定性高于特定阈值，即音调改变小于特定阈值，和/或音调计算的置信度高于特定阈值。可选地或另外地，处理器可以计算属于该信号的每个帧的至少一个共振峰频率46，并且基于该共振峰频率的稳定性来进行选择。

通常，所有上述选择标准都被实施。也就是说，处理器通常只选择信号中其(i)能量级别高于阈值、(ii)音调足够稳定、(iii)音调置信度足够高以及(iv)共振峰频率足够稳定的那些部分。具体地，在基于能量级别标准选择信号的一部分之后，处理器通常将信号分成多个较大的段，每个段包括若干帧，然后选择满足上述的基于音调和基于共振峰的选择标准的连续序列的段以用于分析。例如，假设帧131至帧680具有足够的能量(如图3粗略指示)，处理器可以将帧131至帧680分成10个段S1，S2，...S10，每个段包括55个帧。然后，可以根据基于音调的选择标准和基于共振峰的选择标准来选择这些段中的连续子集(例如，这些段中的第二至第九)。

强调的是，上述预处理通常不涉及以任何方式清除语音信号。换句话说，处理器30通常不改变语音信号，以便使信号更适合于分析。相反，如上所述，处理器选择信号的任何合适的部分，同时保留这些部分的原始内容。如果发现信号中的不够大的部分适合于分析，则处理器30可以指示智能电话向服务器传输另一信号。在上述预处理技术之后，处理器30分析语音信号中被确定为适于分析的部分，以识别语音的一个或更多个语音相关参数。然后，响应于参数，处理器评估肺部病症的状态。例如，处理器可以识别语音的至少一个共振峰频率(例如，共振峰频率F1、F2、F3和/或F4)，并且响应于共振峰频率来评估肺部病症的状态。通常，处理器通过比较共振峰频率与基线(或“参考”)频率来评估肺部病症的状态。这种基线频率可以是在较早日期测量的受试者语音的共振峰频率。如果当前共振峰频率大于该基线，则受试者的病症恶化；相反，如果当前共振峰频率小于该基线，则受试者的病症已被改善。如果当前共振峰频率近似等于基线，则受试者的病症是稳定的。

例如，处理器可以使用在受试者出院时(例如，由处理器使用本文描述的技术)测量的共振峰频率作为基线。如果当前共振峰频率大于该基线，则受试者的病症恶化；另一方面，共振峰频率的微小变化可表明受试者的病症保持稳定。

可选地，这样的基线频率可以是受试者的病症被认为稳定的目标(或“平稳期”)频率，或者是需要干预和/或住院治疗的“边界”频率。(根据受试者的病史，可以为每个受试者单独建立这样的基线。)处理器可以通过将当前共振峰频率与这样的基线进行比较来评估肺部病症的当前状态。在一些实施例中，如果当前共振峰频率与目标频率之间的差大于特定阈值，或者如果当前共振峰频率大于边界频率，则生成警报。

在一些实施例中，在受试者被(例如医师)认为健康的时间段内测量受试者的共振峰频率。然后将这些测量结果的平均值作为基线，并使用这些测量结果的标准偏差来定义生成警报的阈值。例如，如果随后的共振峰频率超过基线两个以上的标准偏差，则可能生成警报。作为纯粹的说明性示例，共振峰频率F1可以具有230Hz的基线，其中标准偏差为17Hz，使得如果F1超过264Hz则产生警报。

在某些情况下，例如在受试者的历史不可用的情况下，基线可基于群体平均数。在这方面，受试者的相关特征——例如受试者的性别、体重、身高、年龄或体力活动水平——可被获得并用于选择合适的基线。例如，基于个体的相关特征，可以将个体群体聚类为多个集群，然后可以通过计算受试者落入的集群的相关参数(例如，共振峰频率)的平均值来选择受试者的基线。

在一些实施例中，处理器识别共振峰频率中的趋势，并基于所识别的趋势生成诸如警报的输出。例如，如果处理器在一定的天数内识别出共振峰频率的增加，则处理器可以识别出受试者病症的恶化，并且因此产生警报。(即使共振峰频率未超过基于基线频率的阈值，也可以产生这种警报。)可选地，如果处理器在一定天数内识别出共振峰频率的降低，则处理器可以生成指示受试者病症的改善的输出。

在一些实施例中，为了识别共振峰频率，处理器首先识别所选的段中的每个帧的相应共振峰频率。(处理器可以首先对每个帧应用汉明(Hamming)窗，和/或用预加重滤波器对每个帧进行滤波。)接下来，基于帧的各个共振峰频率来识别语音(即，作为整体的语音信号)的共振峰频率。例如，处理器可以计算帧的各个共振峰频率的平均值或中值，并且将该度量标识为语音的共振峰频率。

现在参考图3，其是根据本发明的一些实施例的用于分析受试者的语音的方法的示意图。图3中示出的方法有助于识别共振峰频率。

根据在一些实施例中执行的这个方法，处理器首先计算每个帧的倒谱48，其是相位展开后的帧的傅立叶变换的幅度的对数的傅立叶逆变换。倒谱48具有实数分量和虚数分量。在一些实施例中，由处理器分析这两个分量，而在其他实施例中，处理器仅分析实数分量。针对图3和下面的描述假设后者；也就是说，假定图3中绘制的“倒谱电平”是倒谱的实数分量，并且下面描述的处理是在这个实数分量上进行的。(倒谱图的自变量称为“倒频率(quefrency)”，其以样本为单位进行测量)。

随后，处理器将低通倒谱提升器50应用于帧的倒谱。(在倒谱上运行的滤波器被称为“倒谱提升器”。)可以通过要求逆变换的提升倒谱具有阈值水平的平滑度来找到用于倒谱提升器50的合适的截止倒频率，其表明倒谱的周期性部分的充分的提升去掉(liftering-out)。

随后，处理器将提升的倒谱逆变换到频域，从而导出逆变换的提升的倒谱信号52。然后，处理器通过识别信号52的峰值54来识别帧的共振峰频率。例如，假设峰值54位于350Hz，帧的共振峰频率将为350Hz。(在图3中所示的示例中，识别的共振峰频率是F1共振峰。在其他情况下，处理器可选地或除了F1之前还可识别其他共振峰频率，诸如F2。)

如上所述，处理器对信号36的每个帧执行上述技术，然后根据特定于帧的共振峰频率来计算单个总体的共振峰频率。然后使用该总体的共振峰频率来评估受试者病症的状态。

可选地或另外地，处理器可以响应于从信号36提取的其他语音相关参数来评估受试者病症的状态。这样的其他参数可以包括：一组梅尔频率倒谱系数(MFCC)或其导数、一组相对谱变换-感知线性预测(RASTA-PLP)倒谱分量和/或一组RASTA-PLP频谱分量。可从受试者的语音中识别并用于评估受试者的病症的各种其他参数包括呼吸之间的时间段、语音中的暂停次数、语音的响度、声音不规则性、口吃次数和呼气长度以及任何相关的频率或音调参数。作为后者的示例，可以根据受试者不能产生低频或根据观察到的失真变化来评估受试者的病症。

可选地或另外地，处理器可以使评估基于其他非语音相关参数，诸如受试者的图片(其可以例如在受试者正在讲话时由属于智能电话的相机或者外部相机获取)、受试者的体重、从受试者获取的超声心动图(ECG)记录、受试者的动脉血氧饱和度和/或受试者的活动水平(例如，被量化为在前一段时间期间迈的步数)。这些参数中的任何一个都可以例如由受试者输入到智能电话。在一些实施例中，智能电话例如无线地功能性地链接到被配置成测量这些或任何其他参数中的一个或更多个的外部设备，诸如例如，相机、肺活量计、脉搏血氧仪、心电图仪、心率监视器、血压监测仪、皮肤电导率传感器或姿势监视器。

在一些实施例中，处理器将机器学习模型(诸如分类器或回归器)应用于上述参数中的一些或全部。在这样的实施例中，处理器通常还被配置为基于多个标记的语音记录来学习模型。例如，处理器可被提供有多个语音记录，每个语音记录或者被标记为表示该记录是在透析治疗之前立即获得的“湿(wet)”，或者被标记为表示该记录是在透析治疗之后立即获得的“干(dry)”。如上所述，然后可以对这些记录中的每一个进行预处理，以便针对参数(或“特征”)提取选择每个记录中的最合适的部分。然后从每个记录中提取相关参数，并将其馈送到机器学习算法，如K最近邻(KNN)、决策树或支持向量机(SVM)，例如具有高斯内核。例如，在一些实施例中，处理器从每个记录的每个选定部分的每帧中提取一组60个参数，包括(i)一组12个MFCC、(ii)一组12个MFCC一阶导数、(iii)一组12个MFCC二阶导数、(iv)一组8个RASTA-PLP倒谱分量以及(v)一组8个RASTA-PLP频谱分量。通常，然后使用诸如主成分分析法(PCA)的降维算法来降低整个集合的维度，例如降低至48维度。然后将这组缩减的参数连同相关联的标签一起馈送到相关的机器学习算法。该算法然后学习模型，其可以应用于随后的记录。例如，该算法可以学习将随后的记录分类为“湿”或“干”。

(通常，假设D维、每个记录F个帧和N个记录，馈送给算法的“训练集”包括大小为D×FN的矩阵。例如，假设20个记录(例如10个“湿”记录和10个“干”记录)，每个记录150个帧和48维，择训练集包括大小为48×3000的矩阵。)

在一些实施例中，为了对后续记录分类，处理器首先单独地对记录的每个帧进行分类。(如上所述，处理器可以仅使用属于记录中的最合适部分的帧。)例如，处理器可以应用学习的SVM模型，其针对每个帧返回0和1之间的概率，其中0指示“干”，以及1指示“湿”。在应用这样的模型时，处理器可以设置合适的决策阈值，使得例如，低于0.3的概率传递“干”决策，高于0.7的概率传递“湿”决策，并且中间概率根本不传递决策。处理器然后可以将“干”决策的总数与“湿”决策的总数进行比较，并且向该记录应用接收到更多数量的决策的分类。(在执行这种比较时，相对于更接近决策阈值的概率，处理器可以向更接近于0或1的概率提供更高的权重)。

通常，通过在适当的时间段内从受试者获取训练数据并然后对这些数据应用合适的机器学习算法，来针对每个受试者学习单独的模型。

虽然本公开主要涉及与肺内或肺附近过量流体的积聚相关的肺部病症，但应注意，本文所述的实施例经适当修改后也可应用于其他类型的肺部病症，例如慢性阻塞性肺病(COPD)或哮喘。

本领域中的技术人员将认识到，本发明不被限制于上文所具体示出和描述的内容。相反，本发明的范围包括上文所描述的各种特征的组合和子组合以及本领域技术人员在阅读以上描述之后将想到的且未在现有技术中的其变型和修改。

Claims

1.一种用于评估肺部病症的状态的装置，包括：

网络接口；以及

处理器，所述处理器被配置为：

经由所述网络接口接收信号，所述信号表示患有与过量流体的积聚有关的肺部病症的受试者的语音，

通过分析所述信号，识别所述语音的频谱的一个或更多个特性，

响应于所述特性，评估所述肺部病症的状态，以及

响应于所述肺部病症的状态而生成指示所述肺部病症的状态的输出。

2.根据权利要求1所述的装置，其中，所述处理器被配置为通过对所述信号执行频谱分析来分析所述信号。

3.根据权利要求1所述的装置，其中，所述处理器被配置为通过对所述信号执行倒谱分析来分析所述信号。

4.根据权利要求1所述的装置，其中，所述处理器还被配置为通过分析所述信号识别所述语音的含义，并且其中所述处理器被配置为响应于所述含义而评估所述状态。

5.根据权利要求1所述的装置，其中，所述处理器还被配置为提示所述受试者通过口头回答问题来提供所述语音。

6.根据权利要求5所述的装置，其中，所述处理器被配置为通过以下方式提示所述受试者提供所述语音：

拨打电话给所述受试者，以及

在所述受试者接听电话时，向所述受试者提出所述问题。

7.根据权利要求1所述的装置，其中，所述肺部病症选自由肺水肿和胸腔积液组成的组。

8.根据权利要求1所述的装置，其中，所述处理器被配置为通过提供指示所述状态的恶化的警报来生成所述输出。

9.根据权利要求1-8中任一项所述的装置，其中，所述特性包括所述语音的至少一个共振峰频率。

10.根据权利要求9所述的装置，其中，所述处理器被配置为通过将所述共振峰频率与基线频率进行比较来评估所述肺部病症的状态。

11.根据权利要求9所述的装置，其中，所述处理器被配置为通过以下方式来识别所述共振峰频率：

对于所述信号的每个帧：

计算所述帧的倒谱，

随后，将低通倒谱提升器应用于所述帧的倒谱，

随后，将所提升的倒谱逆变换到频域，以及

随后，通过识别逆变换的提升的倒谱的峰值来识别所述帧的共振峰频率，以及

基于帧的各个共振峰频率来识别所述共振峰频率。

12.根据权利要求1-8中任一项所述的装置，其中，所述处理器被配置为通过以下方式来识别所述特性：

基于选自由以下项组成的组的一个或更多个度量来选择所述信号中的至少一部分以供分析：所述语音的能量级别、所述语音的音调的稳定性、计算所述语音的音调的置信度以及所述语音的共振峰频率的稳定性，以及

随后，识别所述信号的所选择的部分的特性。

13.根据权利要求1-8中任一项所述的装置，其中，所述处理器被配置为通过将机器学习模型应用于所述特性来评估所述肺部病症的状态。

14.根据权利要求1-8中任一项所述的装置，其中，所述特性包括一组梅尔频率倒谱系数MFCC。

15.根据权利要求1-8中任一项所述的装置，其中，所述特性包括一组梅尔频率倒谱系数MFCC的导数。

16.根据权利要求1-8中任一项所述的装置，其中，所述特性包括一组相对谱变换-感知线性预测RASTA-PLP倒谱分量。

17.根据权利要求1-8中任一项所述的装置，其中，所述特性包括一组相对谱变换-感知线性预测RASTA-PLP频谱分量。

18.根据权利要求1-8中任一项所述的装置，其中，所述处理器被配置为在不识别所述信号中的任何咳嗽声音并且不识别所述信号中的任何喘息声音的情况下，评估所述肺部病症的状态。

19.根据权利要求1-8中任一项所述的装置，其中，所述处理器被配置为在不首先提示所述受试者提供所述语音的情况下分析所述信号。

20.一种用于估计解剖部位中的流体的量的方法，包括：

使用处理器，通过分析表示患有与过量流体的积聚有关的肺部病症的受试者的语音的信号来识别所述语音的频谱的一个或更多个特性；

响应于所述特性，估计存在于所述受试者的至少一个解剖部位中的流体的量，所述至少一个解剖部位选自由以下各项组成的解剖部位的组：所述受试者的肺，和所述受试者的胸膜腔；以及

响应于所述流体的量，生成指示所述流体的量的输出。

21.根据权利要求20所述的方法，其中，分析所述信号包括对所述信号执行频谱分析。

22.根据权利要求20所述的方法，其中，分析所述信号包括对所述信号执行倒谱分析。

23.根据权利要求20所述的方法，还包括提示所述受试者通过口头回答问题来提供所述语音。

24.根据权利要求23所述的方法，其中，提示所述受试者提供所述语音包括：

自动拨打电话给所述受试者，以及

在所述受试者接听电话时，使用所述处理器向所述受试者提出所述问题。

25.根据权利要求20所述的方法，其中，所述肺部病症选自由肺水肿和胸腔积液组成的组。

26.根据权利要求20-25中任一项所述的方法，其中，所述特性包括所述语音的至少一个共振峰频率。

27.根据权利要求26所述的方法，其中，估计所述流体的量包括通过将所述共振峰频率与基线频率进行比较来估计所述流体的量。

28.根据权利要求26所述的方法，其中，识别所述共振峰频率包括：

对于所述信号的每个帧：

计算所述帧的倒谱，

随后，将低通倒谱提升器应用于所述帧的倒谱，

随后，将提升的倒谱逆变换到频域，以及

随后，通过识别逆变换的提升的倒谱的峰值来识别所述帧的共振峰频率；以及

基于帧的各个共振峰频率来识别所述共振峰频率。

29.根据权利要求20-25中任一项所述的方法，其中，识别所述特性包括：

随后，识别所述信号的所选择的部分的特性。

30.根据权利要求20-25中任一项所述的方法，其中，估计所述流体的量包括通过将机器学习模型应用于所述特性来估计所述流体的量。

31.根据权利要求20-25中任一项所述的方法，其中，所述特性包括一组梅尔频率倒谱系数MFCC。

32.根据权利要求20-25中任一项所述的方法，其中，所述特性包括一组梅尔频率倒谱系数MFCC的导数。

33.根据权利要求20-25中任一项所述的方法，其中，所述特性包括一组相对谱变换-感知线性预测RASTA-PLP倒谱分量。

34.根据权利要求20-25中任一项所述的方法，其中，所述特性包括一组相对谱变换-感知线性预测RASTA-PLP频谱分量。

35.根据权利要求20-25中任一项所述的方法，其中，估计所述流体的量包括在不识别所述信号中的任何咳嗽声音并且不识别所述信号中的任何喘息声音的情况下估计所述流体的量。

36.根据权利要求20-25中任一项所述的方法，其中，分析所述信号包括在不首先提示所述受试者提供语音的情况下分析所述信号。

37.一种用于评估肺部病症的状态的系统，包括：

移动通信终端；以及

服务器，所述服务器包括处理器，所述处理器被配置为：

从所述移动通信终端接收表示患有与过量流体的积聚有关的肺部病症的受试者的语音的信号，

通过分析所述信号来识别所述语音的频谱的一个或更多个特性，

响应于所述特性来评估所述肺部病症的状态，以及

38.一种包括有形的非暂时性计算机可读介质的计算机软件产品，程序指令被存储在所述非暂时性计算机可读介质中，所述指令当由处理器读取时使得所述处理器执行以下操作：

接收表示患有与过量流体的积聚有关的肺部病症的受试者的语音的信号，

响应于所述特性来评估所述肺部病症的状态，以及

39.一种用于评估肺部病症的状态的装置，包括：

声传感器；以及

处理器，所述处理器被配置为：

经由所述声传感器接收表示患有与过量流体的积聚有关的肺部病症的受试者的语音的信号，

响应于所述特性来评估所述肺部病症的状态，以及