CN107112029A

CN107112029A - 用于检测言语模式和错误的方法和装置

Info

Publication number: CN107112029A
Application number: CN201580071817.0A
Authority: CN
Inventors: M·罗特; L·罗特席尔德; S·莱纳
Original assignee: Nova Converse LLC
Current assignee: Nova Converse LLC
Priority date: 2014-12-31
Filing date: 2015-12-29
Publication date: 2017-08-29
Also published as: US20160189566A1; EP3241206A1; US20190150826A1; US20160183868A1; AU2015374230A1; EP3241215A4; CN107111961A; US10188341B2; US11517254B2; US20160189565A1; WO2016109491A1; US20160183867A1; EP3241206A4; WO2016109334A1; EP3241215A1; AU2015374409A1

Abstract

提出了一种在进行流利度塑造练习时检测错误的方法和装置。所述方法包括：接收一组初始能量级；将一组阈值设置为其相应的初始值；接收进行流利度塑造练习的用户的发声；对接收到的发声进行分析以计算组成所述发声的一组能量级；基于计算得到的该组能量级、该组初始能量级以及该组阈值，检测至少一个与言语相关的错误，其中，检查所述至少一个与言语相关的错误涉及所述用户进行的所述流利度塑造练习；以及在检测到所述至少一个与言语相关的错误时，生成指示所述至少一个与言语相关的错误的反馈。

Description

用于检测言语模式和错误的方法和装置

相关申请的交叉引用

本申请要求于2014年12月31日提交的美国临时专利申请第62/098,355号的权益，该内容以引用的方式全部并入本文。

技术领域

本公开大体上涉及言语教导解决方案领域，更具体地涉及在进行流利度塑造技术时用于检测错误的系统和方法。

背景技术

言语障碍是世界上最普遍的障碍之一。通常，言语障碍分为流利障碍、语音障碍、运动言语障碍和言语声音障碍。作为一个示例，口吃被分类为言语音律方面的流利障碍，在这种情况下，一个人明确知道要说什么，但却无法按照其意图表达或者说出来。

相关领域中公开了针对言语障碍的许多临床治疗技术。用于治疗言语障碍的传统技术，尤其是防口吃技术通常都基于调整呼吸并且控制语速。为此，言语治疗师训练其患者以提高他们的流利度。这种传统技术从短期来看是有效的，因为言语障碍主要是由言语产生肌肉协调性差导致的。

更详细地讲，一种常用的口吃治疗技术是流利度塑造，其中，治疗师通过改变各种运动技能来训练一个人(口吃患者)以提高其言语流利度。这种技能包括以下能力：控制呼吸，在各个阶段开始之初缓慢地增加声音音量和喉部振动以使说话减慢，使得元音加长；实现连续发声；以及减小发音压力。

治疗师在诊所教导言语运动技能，同时随着此人学着执行运动技能，治疗师对行为进行建模并且提供言语反馈。随着此人言语运动控制的发展，其语速及言语的韵律加快，直到听起来正常为止。在治疗的最终阶段，当此人在诊所中言语流利并且听起来正常时，会对其进行训练让其实践日常生活活动中所需的言语运动技能。

当流利度塑造治疗成功时，口吃会明显改善或甚至消失。然而，这种治疗要求连续训练和练习，以便维持有效的言语流利度。因此，传统的流利度塑造治疗技术对于患有口吃的人效果不大。这主要是因为并非所有人都能在诊所中发展目标言语运动技能，即使这种技能得到发展，也不易转换为日常对话。换言之，患者可以在诊所中学会流利地讲话，但是出了诊所之后却有可能恢复口吃。因此，连续练习言语运动技能是成功流利度塑造治疗的关键。

在相关领域中，设计了各种电子装置来改进防口吃治疗的结果，包括流利度塑造治疗。这种装置的示例包括声音振幅变化率装置、音高装置、呼吸监测器、以及肌电描记器(EMG)。声音振幅装置设计成训练等响线或者适度的起始流利度塑造言语目标。

这种装置的主要缺点在于其无法用于远程地训练患者，具体来说，不能远程地训练流利度塑造治疗成功所必需的言语运动技能。例如，肌电描记(EMG)装置显示各块肌肉的活动。在诊所外使用EMG装置无法向治疗师提供患者表现如何的实时指示。因此，在患者练习时，治疗师无法提供指导或者修改治疗环节。

另外，这种装置设计用于在治疗期间协助治疗师。因此，单独练习流利度塑造技术的新手患者无法确定其表现有多好。此外，当前可用于监测流利度塑造技术的装置受到其输出的限制，具体地说是可以指导用户如何提高的输出。例如，EMG装置会显示各块肌肉的活动，但是不会区别地指引患者如何监测呼吸。

总而言之，传统的解决方案无法有效地实施流利度塑造治疗的各个流程。例如，这种解决方案未能提供密切监测并且向练习言语运动技能的患者提供实时反馈、以及审查治疗的任何手段。作为另一示例，难以执行其中一种练习的患者可能会感觉受挫，从而增加与患者口吃有关的恐惧和焦虑。这会产生与所需结果相反的效果。

因此，有利的是提供一种针对远程言语障碍治疗的有效解决方案。

发明内容

以下是对本公开的多个实例实施例的概述。提供该概述是为了方便读者对这些实施例有一个基本理解，并非完全是对本公开范围的限定。该概述不是对所有设想的实施例的穷尽综述，既不旨在识别所有方面的关键或者重要要素，也不旨在限制任何或者所有实施例的范围。其唯一的目的是以简化形式呈现本公开的一些构思，作为稍后呈现的更详细的描述的前奏。为了方便起见，本文使用的术语“一些实施例”是指本公开的单个实施例或者多个实施例。

本文公开的某些实施例包括一种进行流利度塑造练习时检测错误的方法。该方法包括：接收一组初始能量级；将一组阈值设置为其相应的初始值；接收进行流利塑造练习的用户的发声；对接收到的发声进行分析以计算组成发声的一组能量级；基于计算得到的该组能量级、该组初始能量级以及该组阈值，检测至少一个与言语相关的错误，其中，检查该至少一个与言语相关的错误涉及用户进行的流利塑造练习；以及在检测到该至少一个与言语相关的错误时，生成指示该至少一个与言语相关的错误的反馈。

本文公开的某些实施例还包括一种进行流利度塑造练习时检测错误的装置。该装置包括：处理单元；以及存储器，该存储器包含指令，该指令在由处理单元执行时将装置配置为：接收一组初始能量级；将一组阈值设置为其相应的初始值；接收进行流利塑造练习的用户的发声；对接收到的发声进行分析以计算组成发声的一组能量级；基于计算得到的该组能量级、该组初始能量级以及该组阈值，检测至少一个与言语相关的错误，其中，检查该至少一个与言语相关的错误涉及用户进行的流利塑造练习；以及在检测到该至少一个与言语相关的错误时，生成指示该至少一个与言语相关的错误的反馈。

附图说明

在本说明书结尾部分的权利要求书中具体指出并且明确要求保护了本文所公开的主题。所公开实施例的上述和其它目的、特征和优点将通过以下结合附图所做的详细说明而变得显而易见。

图1是图示了用于描述各种所公开实施例的远程言语治疗系统的示意图。

图2是图示了用户所产生的语音声音的视觉表示的屏幕截图。

图3是图示了根据一个实施例的检测执行流利度塑造练习的用户的发声中的错误的过程的示意图。

图4是用于描述对过软错误的检测的示例性发声。

图5是用于描述对音节转换错误的检测的示例性发声。

图6是用于描述对密集峰错误的检测的示例性发声。

图7A、7B和7C是用于描述对适度起始错误的检测的示例性发声。

图8是用于描述对音量控制错误的检测的示例性发声。

图9是用于描述对软峰错误的检测的示例性发声。

图10是图示了根据实施例的用于检测与进行流利度塑造练习有关的错误的方法的流程图。

具体实施方式

重要的是要注意，本文所公开的实施例仅仅是本创新技术的许多有利应用的示例。通常，在本申请的说明书中进行的陈述并不一定限制各种请求保护的实施例中的任何一个。而且，一些陈述可适用于一些发明特征，但不适用于另一些发明特征。通常，除非另有指示，否则单数元件可以是复数形式，不失一般性的话，反之亦然。在附图中，相同附图标记在多个图中表示相同部件。

图1示出了用于描述各个所公开实施例的网络系统100的示例性而非限制性示意图。系统100包括网络110、多个用户装置120-1至120-n(在下文中，仅出于简单起见，单独称为一个用户装置120，统称为这些用户装置120)、服务器130以及数据库140。

网络110可以是互联网、万维网(WWW)、局域网(LAN)、广域网(WAN)以及配置为在网络110的元件之间通信的其它网络。各个用户装置120可以是个人计算机(PC)、个人数字助理(PDA)、移动电话、智能电话、平板计算机、可穿戴计算机装置、游戏机等。

任何一个装置120可以用于进行流利度塑造技术和/或监测另一用户对流利度塑造技术的进行。作为非限制性示例，用户装置120-1由个人(例如，口吃患者)使用，而用户装置120-n由言语治疗师使用。

根据某些实施方式，各个装置120配置为与服务器130通信。服务器130可以配置为监测、执行和控制患者装置120-1与治疗师装置120-n之间的言语治疗环节。可以通过，例如，网络接口、安装在装置120上的应用程序、在各个装置120上执行的脚本等，来实现在装置120与服务器130之间的接口连接。在实施例中，各个用户装置120安装有代理125，该代理125配置为执行所公开的技术。在某些配置中，代理125可以作为独立的程序运行并且实现为独立的程序，和/或可以与在用户装置120中执行的其它程序或者应用程序通信并且可以与该其它程序或者应用程序集成。独立程序的示例可以包括网络应用、移动应用等。

部分地在服务器130的控制下，代理125可以配置为相对于预设目标规范对患者的表现提供即时反馈。具体地，如下面将更详细讨论的，代理125配置为进行、监测、分析和报告装置120的用户执行的各种流利度塑造练习中的错误。如上面提到的，这种治疗要求用户能实际且具体地执行。为此，代理125配置为捕获来自患者装置120的声音样本，对该声音样本进行分析，向装置120提供即时视觉反馈，并且检查患者表现是否满足预定目标模板。可以将生成的反馈发送至远程用户装置(例如，治疗师装置)。

各个代理125确保谨慎地对言语产生进行定时，使其持续预定时间量，并且按照非常具体的方式在大量控制下进行。由代理125渲染的并且在相应用户装置120上显示的视觉反馈确保患者反馈仅仅是基于患者的表现。客观的反馈使患者能够以所需的精度说话。可以通过视觉线索来实现客观的反馈，该视觉线索用于限定延长音节或者单词的时间量。可以使用颜色来图示发声的各个元素。这些元素帮助患者将注意力集中于产生更精确(因而，更正确)的言语上。

用户装置的用户可以练习各种流利度塑造技术，这些技术可以是为有言语障碍的用户设计的课程的一部分。在该课程期间，用户(或者患者)通过使用系统100学习提高言语流利度的技术。如本文所公开的，能够通过练习这些技术进行治疗的言语障碍可以包括，但不限于，口吃、言语急促、发音问题等。

为了对练习流利度塑造技术的用户的表现进行评估，代理125配置为对用户的发声进行分析以检测指示错误地进行了具体练习的错误。当接收到发声之后，向用户显示这些错误。在实施例中，这些错误连同发声的视觉表示会一起显示。

在实施例中，代理125配置为相对于目标模板对用户的而表现进行分析。目标模板预定了用于执行一项练习的期望发声的规范。代理125-1进一步配置为就用户表现、目标模板、比较结果和/或任何检测到的错误来渲染视觉反馈。因此，所公开实施例使得能够提高学习新说话方式的有效性，进而形成更流利的言语模式。

根据所公开的实施例，代理125在有或无服务器130的控制的情况下使得能够通过至少以下练习来进行流利度塑造：呼吸、适度语音起始、高语音、语音转换、音节速率(例如，每个音节保持两秒、每个音节保持一秒等)、受控言语、语速可变言语等。用户进行这些练习时能够被检测出来的错误包括适度起始、软峰、适度偏移、音量控制、模式使用、丢失后续发声、发声存在对称性、短吸气、过慢发声、过快发声、过短发声、长发声、密集峰发声。下面将更详细地讨论用于检测这种错误的各种实施例。

在实施例中，将检测到的错误报告给服务器130，并且可以将其保存在与服务器130通信连接的数据库140中以备将来使用。例如，可以使用检测到的错误来生成进展报告，以基于该进展报告进一步确定进展指示符，该进展指示符为例如，但不限于，患者当前的进展水平、先前成果、难点和错误。基于确定的进展指示符，服务器130可以为各个练习环节创建个体化的刺激，从而使各个用户的体验个性化。

现在参照图2，其展示了相对于捕获到的发声显示的视觉反馈和错误。可对产生的语音进行视觉展示以提供有关患者表现的即时视觉反馈。视觉反馈可以包括语音着色，通过区分患者语音的“软度”和“硬度”的两种不同颜色来实现语音着色。视觉反馈可以包括配色方案、模式、图像等中的任何颜色。这使用户能够更好地理解声带受压的方式。应该了解，即时视觉反馈，例如，通过对语音进行着色，实现了自我治疗，并且进一步实现了对言语治疗的不同方面进行解释。如上面指出的，流利度塑造治疗的最佳成功需要恰当的反馈。

图2示意性地图示了患者产生的语音的目标模板210和视觉表示220(语音着色)。目标模板210显示有目标模板的一组边界215。针对发声，动态地确定和显示边界215。边界215包括发声的开始时间215-1、结束时间215-3、和峰215-2。

视觉表示220包括与患者分别发出软声音和高声音有关的两个阴影不同的部分221和222。在图2的示例中，用户的表现不佳，因此，显示有错误240。错误240可以指示错误类型并且可以提供有关如何改进下一次发声的指示，诸如，以更低的语速说话、在下一个音节之前呼吸等。

应该指出，上面就代理125描述的一些或者所有实施例也可以由服务器130执行。例如，服务器130可以接收语音样本图，对这些样本进行处理，并且为用户装置120生成视觉反馈。作为另一示例，服务器130可以接收语音样本，对这些样本进行处理，并且将处理结果发送至代理以便对视觉反馈进行渲染。

在一些实施方式中，用户装置120和服务器130通常均包括连接至存储器(未示出)的处理系统(未示出)。存储器包含由处理系统执行的多个指令。具体地，存储器可以包括用于存储软件的机器可读介质。软件应广义地理解为表示任何类型的指令，无论是被称为软件、固件、中间件、微代码、硬件描述语言还是其他。指令可以包括代码(例如，源代码格式、二进制代码格式、可执行代码格式、或者任何其它合适的代码格式)。当由一个或者多个处理器执行时，指令使处理系统执行本文描述的各种功能。

处理系统可以包括或者可以是利用一个或者多个处理器实现的更大处理系统的组件。可以利用通用微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、状态机、门控逻辑、离散硬件部件、专用硬件有限状态机、或者可以执行计算或者其它信息操纵的任何其它合适的实体的任何组合来实现该一个或者多个处理器。

应该理解，本文所公开的实施例不限于图1中图示的具体架构，并且，在不脱离所公开实施例的范围的情况下，还可以使用其它架构。具体地，服务器130可以驻留在云计算平台、数据中心等中。此外，在实施例中，可以存在多个服务器130，这些服务器如上文所描述那样运行并且配置为使其中一个服务器作为备用，共用它们之间的负载，或者在它们之间分担功能。

图3是图示了根据一个实施例的检测执行流利度塑造练习的用户的发声中的错误的过程的非限制性、示例性示意图300。该过程开始于对系统用户产生的语音进行音频采样。通过音频/数字转换器310来对麦克风305捕获的语音进行采样。麦克风305可以是，例如，安装在用户装置(例如，患者装置120-1)上的麦克风。可以以预定速率来执行该采样。作为非限制性示例，采样速率为800Hz。

将在预定时间间隔期间产生的语音样本缓冲到缓冲器320中以创建样本的语音语块。单个语音语块的持续时间大于持续时间样本。在实施例中，各个语音语块的大小可以取决于缓冲器的配置。可以以预定速率，例如，10Hz，从缓冲器输出语音语块。然后，通过低通滤波器(LPF)330过滤输出的语音语块以除去或者减少任何噪声。在某些配置中，可以在对语音样本进行组块之前，即，在缓冲器320之前，应用LPF 330。

通过使用快速傅立叶转换(FFT)模块340将语音语块从时域转换到频域。使信号(语音语块)处于频域中使得能够通过频谱分析器350提取出频谱特征。可以利用对频谱特征的分析来确定发声的质量和正确性。

在实施例中，频谱分析器350提取对处理发声有价值的频谱特征。为此，可以除去零边频率并且可以保留主频率。在实施例中，主频率是频谱中绝对幅度级高于预定阈值的频率。在另一实施例中，主频率是在频谱中绝对频率级高于预定阈值的频率。在又一实施例中，基于频率以及幅度来输出两组主频率。

频谱分析器350计算主频率的能量级以输出各个语音语块的能量级。可以计算能量，作为主频率的平均值。将计算得到的能量级表示为整数。在实施例中，能量级可以一预定幂为因子。在等式1中可看到示例性能量计算：

其中，'ω(i＝1,...,R)是频谱中的主频率的数量。因子‘β’是预定数，而幂‘k’可以等于或者大于2。计算得到的能量级E_f具有单个语音语块并且输入至反馈生成器360、错误生成器370和语速计生成器380。

在实施例中，测量或者计算在静默时段(在该时段期间，提醒患者保持安静)期间的能量级(E_s)。然后，测量或者计算在正常讲话时段(在该时段期间，提醒患者说话)期间的能量级(E_n)。最后，计算校准能量级(ECAL)，作为E_n和E_s的函数。例如，该函数可以是平均、加权平均等。在某些实施例中，可以在确定的ECAL中利用从患者装置附近的不同装置接收到的校准因子。

反馈生成器360针对发声绘制视觉反馈。各个语块的能量是图中图示发声的一个点(例如，见图2)。反馈生成器360对发声进行着色以表示软语音声音和高语音声音。如上面指出的，利用两种不同的颜色(或者阴影)分别示出软语音和高语音。在实施例中，将低于“音量阈值”的单个语块的能量级E_f确定为软语音，并且将高于“音量阈值”的单个语块的能量级E_f确定为高语音。可以在对静默(E_s)期间和/或用户的正常讲话(E_n)期间测得的能量的函数进行校准的过程期间，确定音量阈值。该函数可以是对E_s和E_n值进行平均或者加权平均。

在另一实施例中，反馈生成器360动态设置目标模板(阴影图)的边界以从视觉上向患者指示何时开始和结束发声。为此，反馈生成器360将能量级E_f与静默能量(E_s)进行比较。当能量级E_f大于静默能量(E_s)时，可以确定发声开始，并且可以对开始和结束指示符以及阴影图进行渲染并且显示在患者装置上。可以将结束指示符设置成在开始指示符之后显示预定时间间隔。

反馈生成器360进一步配置为在发声结束时显示呼吸指示符。为此，反馈生成器360将能量级E_f与正常发声能量(E_n)进行比较。当E_f低于E_n时，可以确定发声结束，并且可以对呼吸指示符进行渲染并且显示在患者装置上。

在某些实施方式中，反馈生成器360配置为基于对发声的频谱分析来区分发声中的软语音和高语音。在这种实施方式中，可能不需要在校准过程期间确定的各种能量级。

错误生成器370配置为将(在开始与结束之间的)发声与相应的目标模板进行比较。该比较是针对整个发声，从而对语音语块的所有计算得到的能量级E_f进行缓冲和分析，以检测与发声有关的错误。具体地，相对于各种流利度塑造练习，检测到的错误与患者的表现有关。

以下是可以检测到的错误的非限制性示例：适度起始、软峰、适度偏移、音量控制、模式使用、丢失后续发声、发声存在对称性、短吸气、过慢发声、过快发声、过短发声、长发声、低音高、高音高、密集峰发声、上述的任何组合等。检测到的错误为用户提供有关其可以如何改善发声的即时反馈。应该注意，如果未检测到错误，则可以向用户提供正面反馈。

在某些实施方式中，错误生成器370利用来自声谱图390的反馈。声谱图390可以用于从语音上识别说出的单词。在特定实施例中，声谱图390可以用于识别发声中的元音和辅音，并且将识别到的元音和辅音与已知的元音和辅音进行比较。在一种配置中，可以将声谱图390集成在错误生成器370中。

应该注意，在一个实施例中，相对于目标模式对发声进行的分析不是一对一比较，而是检查计算得到的能量级在幅度和/或方向上是否与目标模式匹配。在另一实施例中，相对于目标模式对发声进行的分析是一对一比较，在这种情况下，需要与目标模板(图)匹配。在又一实施例中，这两种比较方法都可利用。下面更详细描述了错误生成器370在检测错误时的操作。

语速计生成器380配置为测量语速，例如，根据发声中每秒音节数量，并且提供语速检测器。在实施例中，语速计生成器380以三种范围内运行：受控、慢、正常。为了测量语速，对发声中的能量级(E_f)的峰的数量进行计数，其中，每个这种峰表示音节。当测量语速时，可以相对于其它练习缩短语音语块的持续时间。例如，可以将语音语块持续时间从100毫秒改为20毫秒。

在有些实施方式中，语速计生成器380将测得的语速提供给错误生成器370，后者确定该语速是否偏离了正常对话速率的语速集合(过慢或者过快)。在实施例中，当语速低于预定语速阈值(TH_rate(TH_速率))时，检测过慢错误。在实施例中，当语速高于预定语速阈值(TH_rate)时，检测过快错误。在一种配置中，可以将语速计生成器380集成在错误生成器370中。

可以将参照图3讨论的各个元件实施为硬件、固件、软件或者其组合，并且可以通过(用户装置120的)代理125和/或服务器130来实现。当实施这些元件时，这些元件可以包括用于处理音频信号的一个或者多个电子电路或者一个或者多个处理系统。上面提供了处理系统的示例。

以下是对检测与进行流利度塑造有关的错误的详细讨论。第一种错误是过软发声。这种错误指示用户在发声的时候没有呼出足够的空气。正确发出软语音(声音)会表现出呼吸放松，发声连续且言语缓慢拉长。

现在参照图4解释用于检测过软错误的非限制性示例。对发声期间计算得到的能量级(E_f)的总数410和高于校准能量级ECAL的能量级E_f420进行计数。然后，如果(相对于总能量级)高于ECAL的能量级E_f的百分比低于预定阈值(下文称为“TH_soft”(TH_软))，则认为发声引入了过软错误。

按照相似的方式，当高于ECAL的能量级E_f的百分比低于预定阈值(下文称为“TH_loud”(TH_高))时，检测过高错误。过高发声表示发音肌肉活动量大、呼吸肌肉张紧度高和言语快。通常，过高错误和过软错误都发生在要求用户练习说出一音节或者一串音节时。

根据所公开实施例，检测到的另一种错误是进行流利度塑造时音节之间的正确转换。例如，针对用户的重复单词“elephant”所捕获的发声应该包括在三个音节“el-e-phant”之间的转换。错误生成器370配置为检测在这种转换之间的任何“过软”或者“过高(too loud)”发声。过软或者过高的音节转换表明用户未能高效地控制呼吸，这可导致口吃加剧。

现在参照图5解释用于检测音节转换中的错误的非限制性示例。测量(或者通过校准过程提供)正常能量级(E_n)和静默能量级(E_s)。然后，计算这两个能量级之间的能量差值(ΔΕ)。如果能量差值(ΔΕ)低于软阈值(TH_soft)501，则该转换过软；如果能量差值(ΔΕ)高于高阈值(TH_loud)502，则该转换过高；并且，如果能量差值(ΔΕ)介于阈值501与502之间，则该转换是正确的。如图5所示，第一转换510是正确的，第二转换520过软，并且第三转换530过高。软阈值和高阈值预配置或者根据校准值设置。在实施例中，可以通过使用声谱图390来确定过高与过软之间的转换。

在又一实施例中，错误生成器370配置为检测发声的密集峰错误。如图6所示，在发声到达高于预定时间阈值(TH_t-peak(TH_时间-峰))的能量级(Ef_max)时，识别密集峰。这种错误表明，用户在发声时，例如，在正常语音练习期间，按照不受控制的方式吹气。在实施例中，TH_t-peak阈值是在校准过程期间测得的正常言语的正常能量(E_n)的函数。

在另一实施例中，错误生成器370配置为检测与发声的适度起始和适度偏移有关的错误。正确的适度起始(例如，在各个音节开始时音量平滑提高)表明连续发声。由于不正确的起始凹形、起始高幅度、起始长度、非渐变斜率变化等，可以检测到适度起始错误。还会检测到适度偏移发声的相似错误。适当进行适度起始对于流利度塑造很重要。

参照图7A至图7C描述了对与适度起始有关的错误的检测。为了识别非渐变斜率错误，计算每两个连续能量级(Ef_i和Ef_i+1)之间的差值(ΔC)。如果该差值大于起始斜率阈值(TH_os(TH_起始斜率))，则检测非渐变斜率错误。在示例性实施例中，阈值TH_os是发声的最小能量级(E_s)与最大能量级(Ef_max)的函数。非渐变斜率错误指示发声中的突变。该错误表明用户未按照同步的方式呼吸，因此未能很好地执行流利度塑造技术。在图7A中示出了表示非渐变斜率错误的发声的示例。

当(发声的)起始形状是凹形时，检测凹性错误。这表明用户加长了言语。相对于连续能量级(Ef_i和Ef_i+1)之间的差值，测量发声的凹度。在图7B中示出了表示凹性错误的发声的示例。

确定适度起始长度，作为从发声开始到出现发声峰以来的持续时间。当起始长度(T1)与发声的总时间(T2)之比大于预定阈值时，检测起始长度错误。即，当发声长度太长时，检测起始长度错误。

将具有高幅度的适度起始视为错误，这是因为用户吹出的空气多于生成发声所需的空气。为了检测这种错误，将计算得到的或者测得的发声的最大能量级(Ef_max)与起始幅度阈值(TH_OA(TH_起始幅度))进行比较。当Ef_max高于TH_OA时，检测高起始幅度错误。在图7C中示出了表示高起始错误的发声的示例。应该注意，本文所公开的用于检测适度起始错误的实施例也可以适用于检测适度偏移错误。

根据另一实施例，检测音量控制错误。音量控制错误表示音节或者短语的非连续发音。控制言语音量对于教导用户控制其呼吸以便流利地讲话很重要。从两个矢量来检测发声的音量：功率和方向。在整个发声期间，检查功率或者能量级以检测能量级中不存在不期望的变化(降低或者增加)。检查发声的斜率以确定可以改变发声方向的任何突变。

参照图8描述了对与音量控制有关的错误的检测。通过对从E_s能量级到E_max能量级(向上方向)以及从E_max能量级到E_s能量级(向下方向)中每两个连续能量级(Ef_i和Ef_i+1)进行比较来检测音量控制错误。在向上方向上，如果两个连续能量级(Ef_i+1和Ef_i)之间的差值为负数(存在预定容差)，则检测音量控制。按照相似的方式，在向下方向上，如果两个连续能量级(Ef_i和Ef_i+1)之间的差值为正数(存在预定容差)，则检测音量控制。图8中示出的发声表示向上方向上的音量控制错误。

在又一实施例中，当在言语中要求“正常”言语音量时，针对各种发声，检测软峰错误。当能量级与能量级总数的百分比高于预定软峰阈值(下文称为“TH_SP”(TH_软峰))时，识别软峰错误。如上面指出的，利用两种颜色来对发声进行着色，以示出“软”语音和“高”语音，从而使用户能够控制发声。图9中示出了表示软峰错误的发声的示例。

当请求用户生成某些模式时，也可以使用对软峰错误的检测。可以相对于不同的模式，动态地改变软峰阈值(TH_SP)。当可以根据各个模式来设置所需发声的音量时，模式可以是音节、单词或者句子。

图10示出了示例性、非限制性的流程图1000，该流程图1000图示了根据一个实施例的用于检测与进行流利度塑造练习有关的错误的方法。在S1010中，接收校准过程期间确定的一组能量级。这些能量级包括静默(E_s)、正常(E_n)和校准(ECAL)能量级。

在S1020中，将用于检测流利度塑造错误的各个阈值设置为其相应的初始值。该初始值可以预定。应该注意，每个这种阈值可以稍后根据用户的表现或者根据用户对其所执行的练习的控制而自动修改。即，在对流利度塑造错误的检测中利用的所有阈值都是可配置的。如上面指出的，这些阈值包括：例如，用于检测过软错误和过高错误的TH_soft和TH_loud、用于检测适度起始错误的TH_OA和TH_OS、用于检测软峰错误的TH_SP、以及用于检测语速错误的TH_rate。

在S1030中，接收在用户装置上捕获的发声。在S1040中，对接收到的发声进行处理以测量或者计算组成该发声的能量级。能量级包括：Ef_i(i＝1,...,n)，其中，n是发声中的语音语块的数量；以及Ef_max。

如上面详细讨论的，对发声进行处理包括：对接收到的发声进行采样以创建语音样本；对语音样本进行缓冲以创建语音语块；将语音语块从时域转换到频域；从各个频域语音语块提取频谱特征；针对各个语音语块，测量或者计算对应主频率的能量级；以及针对各个语音语块，基于对应主频率的能量级确定语音语块的能量级。频谱特征包括至少主频率，并且各个主频率与语音语块对应。

在S1050中，通过使用测得的能量级和阈值，检测流利度错误。上面详细讨论了用于检测这种错误的各种示例性实施例。

在S1060中，相对于检测到的错误，生成通知并且将该通知提供给用户。该通知可以与各个检测到的错误类型有关，或者优选地，与如何改善下一次发声的指示有关。在实施例中，该通知是视觉反馈的形式，其中，相对于显示的发声显示错误。视觉反馈可以进一步包括：对发声进行着色，相对于目标模板显示发声，显示何时开始和结束发声的边界，显示错误和指导性指示，显示呼吸指示符，和/或显示语速计。

在S1070中，检查是否应该修改任何阈值，并且，如果应该修改，则在S1080中，可以修改阈值并且该执行过程回到S1030。否则，该执行过程终止。应该注意，可能需要修改阈值，例如，以降低某些练习的难度，例如，在检测到相同用户的重复错误时。

应该了解，对患者执行各种练习的定性分析使得能够确定患者重复出现的错误类型和难点。该确定使得能够创建个性化的治疗计划，这种个性化的治疗计划可鼓励在需要的时候进行内容审查并且将练习中的刺激与用户所遇到的具体难点相匹配。

以具体的顺序示出方法1000的步骤仅仅是出于简化的目的，并不是对所公开的实施例的限制。在不脱离本公开的范围的情况下，可以按照不同的顺序来执行这些方法步骤。可以重复方法1000的任何或者所有步骤，优选地响应于指示希望重新访问一个或者多个步骤的用户输入而重复。

可以将本文所公开的各个实施例实施为硬件、固件、软件或者其任何组合。而且，优选地将软件实施为有形包含在程序存储单元、非暂时性计算机可读介质、或者可以是数字电路、模拟电路、磁性介质或者其组合形式的非暂时性机器可读存储介质上的应用程序。可以将应用程序加载到包括任何合适的架构的机器上，并且通过该机器来执行。优选地，将该机器实施在具有一个或者多个中央处理单元(“CPU”)、存储器和输入/输出接口等硬件的计算机平台上。计算机平台还可以包括操作系统和微指令代码。本文描述的各种过程和函数可以是微指令代码的一部分或者应用程序的一部分、或者其任何组合，它们可以由CPU执行，无论是否明确示出了这种近似算计或者处理器。另外，可以将各种其它外围单元连接至计算机平台，诸如，附加数据存储单元和打印单元。此外，非暂时性计算机可读介质是除了暂时性传播信号之外的任何计算机可读介质。

虽然已经相对于多个描述的实施例以一定的篇幅在一些特定性下描述了所公开的实施例，但并非旨在将本发明局限于任何这种特殊情况或者实施例或者任何特定实施例，相反，应该结合随附权利要求书来理解本发明以从现有技术的观点对这些权利要求项提供最广泛的可能的诠释，从而有效地囊括本公开的既定范围。此外，上述内容从发明人所能预见的可获得授权描述的实施例方面描述了本公开，尽管如此，对所公开实施例的非实质性修改，即使目前未能预见，也可以表示本发明的等效物。

Claims

1.一种在进行流利度塑造练习时检测错误的方法，其包括：

接收一组初始能量级；

将一组阈值设置为其相应的初始值；

接收进行流利度塑造练习的用户的发声；

对接收到的发声进行分析以计算组成所述发声的一组能量级；

基于计算得到的该组能量级、该组初始能量级、以及该组阈值，检测至少一个与言语相关的错误，其中，检查所述至少一个与言语相关的错误涉及所述用户进行的所述流利度塑造练习；以及

在检测到所述至少一个与言语相关的错误时，生成指示所述至少一个与言语相关的错误的反馈。

2.根据权利要求1所述的方法，其中，该组初始能量级包括以下至少一个：正常言语能量级、静默能量级以及校准能量级。

3.根据权利要求2所述的方法，其进一步包括：

对所述用户的计算装置执行音频校准过程以设置所述正常言语能量级、所述静默能量级、以及所述校准能量级，其中，在所述用户的计算装置上捕获所述发声。

4.根据权利要求2所述的方法，其中，处理接收到的发声进一步包括：

对接收到的发声进行采样以创建语音样本；

对所述语音样本进行缓冲以创建语音语块；

将所述语音语块从时域转换到频域；

从各个所述频域语音语块提取频谱特征，其中，所述频谱特征包括至少主频率，其中，各个主频率与语音语块对应；

针对各个语音语块，计算对应主频率的能量级；以及

针对各个语音语块，基于对应主频率的能量级确定该语音语块的能量级。

5.根据权利要求4所述的方法，其中，检测所述至少一个与言语有关的错误进一步包括：

检查高于所述校准能量级的计算得到的能量级的总数的百分比是否低于过软阈值的初始值，其中，所述过软阈值是该组阈值中的一个；以及

当所述百分比低于所述过软阈值的初始值时，检测过软错误发声。

6.根据权利要求5所述的方法，其中，检测所述至少一个与言语有关的错误进一步包括：

检查高于所述校准能量级的计算得到的能量级的总数的百分比是否高于过高阈值的初始值，其中，所述过高阈值是该组阈值中的一个；以及

当所述百分比高于所述过高阈值的所述初始值时，检测过高错误发声。

7.根据权利要求6所述的方法，其中，检测所述至少一个与言语有关的错误进一步包括：

计算所述正常能量级与所述静默能量级之间的能量差；

将所述能量差与所述过高阈值和所述过软阈值进行比较；以及

当计算得到的差值低于所述过高阈值和所述过软阈值时，检测音节转换错误。

8.根据权利要求4所述的方法，其中，检测所述至少一个与言语有关的错误进一步包括：

确定所述发声的实测能量级中的最大能量级；

检查所述最大能量级是否高于密集峰阈值的初始值，其中，所述密集峰阈值的初始值相对于所述正常能量级设置，所述密集峰阈值是该组阈值中的一个；以及

当所述最大能量级高于所述密集峰阈值的所述初始值时，检测密集峰阈值错误发声。

9.根据权利要求4所述的方法，其进一步包括：

计算每两个相连能量级之间的能量差；

将所述能量差与起始斜率阈值的初始值进行比较，其中，所述起始斜率阈值的初始值相对于所述静默能量级和所述最大能量级设置，所述起始斜率阈值是该组阈值中的一个；

当计算得到的能量差高于所述起始斜率阈值的所述初始值时，检测非渐变斜率适度起始言语错误。

10.根据权利要求4所述的方法，其进一步包括：

从所述发声的实测能量级中确定最大能量级；

将所述能量差与起始幅度阈值的初始值进行比较，其中，所述起始幅度阈值是该组阈值中的一个；

当所述最大能量级高于所述起始幅度阈值的所述初始值时，检测一高幅度适度起始言语错误。

11.根据权利要求10所述的方法，其中，检测到的与言语有关的错误进一步包括以下任一种：适度起始过长和凹形适度起始。

12.根据权利要求1所述的方法，其中，检测到的与言语有关的错误进一步包括以下任一种：适度偏移过长、非渐变斜率适度偏移、高幅度适度偏移和凹形适度偏移。

13.根据权利要求4所述的方法，其进一步包括：

从所述发声的实测能量级中确定最大能量级；

计算从所述静默能量级到所述最大能量级的每两个连续能量级之间的能量差；以及

当所述能量差为负时，检测音量控制言语错误。

14.根据权利要求4所述的方法，其进一步包括：

从所述发声的实测能量级中确定最大能量级；

计算从所述最大能量级到所述静默能量级的每两个连续能量级之间的能量差；以及

当所述能量差为正时，检测音量控制言语错误。

15.根据权利要求4所述的方法，其进一步包括：

检查计算得到的能量级的总数中第一数量的计算得到的能量级是否高于软峰阈值的初始值，其中，所述软峰阈值是该组阈值中的一个；以及

当所述第一数量的计算得到的能量级高于所述软峰阈值时，检测软峰错误发声。

16.根据权利要求1所述的方法，其进一步包括：

相对于所述分析测量语速；以及

当所述实测语速低于语速阈值的初始值时，检测语速错误，其中，所述语速阈值是该组阈值中的一个并且被设置以用于指示正常语速。

17.根据权利要求1所述的方法，其进一步包括：

将生成的反馈至少显示在所述用户的计算装置上，其中，对应于接收到的发声来显示该生成的反馈。

18.根据权利要求17所述的方法，其中，生成所述反馈进一步包括：通过使用至少第一颜色和第二颜色对所述发声进行着色，其中，所述第一颜色表示由所述用户产生的高声音，并且第二颜色表示由所述用户产生的软声音。

19.根据权利要求1所述的方法，其中，所述至少一个练习包括一串发声。

20.根据权利要求1所述的方法，其进一步包括：

生成报告，所述报告总结了在当前治疗环节期间对所述发声的执行；以及

保存所述报告。

21.根据权利要求1所述的方法，其中，在言语障碍治疗期间进行所述流利度塑造练习，所述言语障碍治疗用于以下至少一种：口吃、言语急促以及发音问题。

22.一种非暂时性计算机可读介质，所述非暂时性计算机可读介质存储有指令，所述指令使一个或者多个处理单元执行根据权利要求1所述的方法。

23.一种在进行流利度塑造练习时检测错误的装置，其包括：

处理单元；以及

存储器，所述存储器包含指令，所述指令在由所述处理单元执行时将所述装置配置为：

接收一组初始能量级；

将一组阈值设置为其相应的初始值；

接收进行流利度塑造练习的用户的发声；

24.根据权利要求23所述的装置，其中，该组初始能量级包括以下至少一个：正常言语能量级、静默能量级以及校准能量级。

25.根据权利要求23所述的装置，其中，所述装置进一步配置为：

对所述用户的计算装置执行音频校准过程以设置所述正常言语能量级、所述静默能量级以及所述校准能量级，其中，在所述用户的计算装置上捕获所述发声。

26.根据权利要求25所述的装置，其中，所述装置进一步配置为：

对接收到的发声进行采样以创建语音样本；

对所述语音样本进行缓冲以创建语音语块；

将所述语音语块从时域转换到频域；

从各个频域语音语块提取频谱特征，其中，所述频谱特征包括至少主频率，其中，各个主频率与语音语块对应；

针对各个语音语块，计算对应主频率的能量级；以及

针对各个语音语块，基于对应主频率的能量级确定所述语音语块的能量级。

27.根据权利要求26所述的装置，其中，所述装置进一步配置为：

当所述百分比低于所述过软阈值的所述初始值时，检测过软错误发声。

28.根据权利要求26所述的装置，其中，所述装置进一步配置为：

29.根据权利要求28所述的装置，其中，所述装置进一步配置为：

计算所述正常能量级与所述静默能量级之间的能量差；

30.根据权利要求26所述的装置，其中，所述装置进一步配置为：

从所述发声的实测能量级中确定最大能量级；

检查所述最大能量级是否高于密集峰阈值的初始值，其中，所述密集峰阈值的初始值相对于所述正常能量级设置，所述密集峰阈值是该组阈值中的一个；并且，

31.根据权利要求26所述的装置，其中，所述装置进一步配置为：

计算每两个相连能量级之间的能量差；

32.根据权利要求26所述的装置，其中，所述装置进一步配置为：

从所述发声的实测能量级中确定最大能量级；

当所述最大能量级高于所述起始幅度阈值的所述初始值时，检测高幅度适度起始言语错误。

33.根据权利要求32所述的装置，其中，检测到的与言语有关的错误进一步包括以下任一种：太长适度起始和凹形适度起始。

34.根据权利要求23所述的装置，其中，检测到的与言语有关的错误进一步包括以下任一种：适度偏移过长、非渐变斜率适度偏移、高幅度适度偏移、和凹形适度偏移。

35.根据权利要求4所述的装置，其中，所述装置进一步配置为：

从所述发声的实测能量级中确定最大能量级；

当所述能量差为负时，检测音量控制言语错误。

36.根据权利要求26所述的装置，其中，所述装置进一步配置为：

从所述发声的实测能量级中确定最大能量级；

当所述能量差为正时，检测音量控制言语错误。

37.根据权利要求26所述的装置，其中，所述装置进一步配置为：

38.根据权利要求23所述的装置，其中，所述装置进一步配置为：

相对于所述分析测量语速；以及

当所述实测语速低于语速阈值的初始值时，检测语速错误，其中，所述语速阈值是该组阈值中的一个并且设置为用于指示正常语速。

39.根据权利要求23所述的装置，其中，所述装置进一步配置为：

40.根据权利要求39所述的装置，其中，生成所述反馈进一步包括：

通过使用至少第一颜色和第二颜色对所述发声进行着色，其中，所述第一颜色表示由所述用户产生的高声音，并且第二颜色表示由所述用户产生的软声音。

41.根据权利要求23所述的装置，其中，所述至少一个练习包括一串发声。

42.根据权利要求23所述的装置，其中，所述装置进一步配置为：

保存所述报告。

43.根据权利要求23所述的装置，其中，在言语障碍治疗期间进行所述流利度塑造练习，所述言语障碍治疗用于以下至少一种：口吃、言语急促以及发音问题。