CN1474675A

CN1474675A - 传送外部生成的语音信号以提高口吃者流畅性的方法及装置

Info

Publication number: CN1474675A
Application number: CNA008200165A
Authority: CN
Inventors: ��ᡤJ��ŵ; J·卡利诺夫斯基; A·斯图尔特; M·拉斯塔特
Original assignee: East Carolina University
Current assignee: East Carolina University
Priority date: 2000-09-18
Filing date: 2000-12-18
Publication date: 2004-02-11
Also published as: EP1318777A4; AU2729701A; NO324163B1; NO20031217D0; US6754632B1; NZ524747A; WO2002024126A1; MXPA03002333A; JP2004524058A; KR20040016441A; EP1318777A1; IL154901A0; CA2425066A1; ZA200302135B; KR100741397B1; CA2425066C; NO20031217L; AU2001227297B2

Abstract

方法及装置(10)产生外部自然语音信号(10s)，作为对用户的听觉刺激，以提高口吃者的流畅性。自然语音信号(10s)与口吃者的同期语音产生无关，它由话音表示提供，并可以是诸如单元音或辅音或元音串之类的延长或持续话音表示音。第二语音信号(10s)可以在口吃者的说话事件或语音产生之前传送和/或在说话事件过程中与说话事件同时间歇地或连续地传送。本发明的装置(10)配置用来提供基于话音的语音信号(10s)，使用户可听到，并且不需要用户本身的语音反馈，允许用户以基本正常的速率及提高的流利性说话。装置(10)和方法能够根据手动激活或自动根据用户方面的语音或口吃事件的检测来传递信号(10s)。

Description

传送外部生成的语音信号以提高口吃者流畅性的方法及装置

发明领域

本发明涉及提高口吃者的流畅性的装置及方法。

发明背景

传统上，通过若干种不同的治疗方法来治疗口吃，其中包括精神疗法、药物疗法以及电信号处理装置产生的传递给口吃者的更改听觉反馈的应用。这些技术一般可描述为语音信号输出的内部改变，例如延长或减慢的语音、节奏语音、标志及唇音，或者描述为语音信号本身的外部动态改变，它们两者都能够在口吃者中成功地产生比较流畅的语音。参见例如O.Bloodstein的“口吃指南”(5^th ed.Singular，San diego，CA，1995)。

我们相信，与诸如屏蔽噪声及点击之类的不一致非语音听觉输入或者诸如闪光之类的视觉输入相比，诸如齐声读、遮蔽语音、延迟听觉反馈以及频率改变的反馈之类语音的外部听觉改变、或者诸如可视的齐声集体读之类治疗的可视形式一般能够产生更有力且自然的发生的口吃减少。

两种已经用于治疗口吃的改变听觉反馈包括延迟听觉反馈(“DAF”)和屏蔽噪声或屏蔽听觉反馈(“MAF”)的引入。一般来说，DAF对提供给说话者/口吃者的反馈语音信号的传送中加入延迟，而MAF则用来设法战胜说话者的听觉反馈。

例如，M.E.Wingate在“口吃：理论及治疗”(p.237，Irvington，1976)中描述了一种改变的听觉反馈，它可包含DAF来提供对发音的强调，即放慢语音速度以延长音节时长。但是，这种听觉反馈或流畅性的提高在传统上被认为是可采用或不采用DAF来实现的，只要使用了音节延长。参见例如H.H.Gregory(Ed.)的“关于口吃疗法的辩论”中W.H.Perkins的“从心理分析到不协调”(pp.97-127，University Press，1979)。另外还参见Andrew Stuart等人的“流利语音、快速发音速率及延迟听觉反馈：创造科学革命的转折点？”(82 Perceptual and MotorSkills，pp.211-218，1996)。

一般来说，语音信号改变下的口吃频率减小归因于产生的节奏、分心、修改的发声以及速率降低。实际上，过去发现放慢的语速是减少口吃的一个重要因素。例如，在W.H.Perkins等人的“电话速率及口吃的有效计划时间假说”(29 Jnl.Of Speech and Hearing Research，747-755(1979))中，作者说明，当说话者将语音降低大约75％时，实际上消除了口吃。不过，其它报告发现，对于流畅性的提高，速率降低既不是必需的也不是足够的。参见Kalinowski等人的“在各种听觉反馈延迟及语速上的口吃改善”(European Journal of Disorders ofCommunication，31，259-269(1996))；Stuart等人的“流利语音、快速发音速率及延迟听觉反馈：创造科学革命的转折点？”(Perceptual andMotor Skills，82，211-218(1996))；MacLeod等人的“以两种语速在口吃频率上的单一及组合改变听觉反馈的作用”(Journal ofCommunication Disorders，28，217-228(1995))；Kalinowski等人的“在口吃频率上的正常及快速发音速率的作用”(Journal of FluencyDisorders，20，293-302(1995))；Hargrave等人的“以正常及快速语速在口吃频率上的频率改变反馈的作用”(Journal of Speech and HearingResearch，37，1313-1319(1994))；以及Kalinowski等人的“在口吃频率上的听觉反馈及语速的改变的作用(Language and Speech，36，1-16(1993))。

最近，在授予Rastatter等人的美国专利No.5961443中描述了便携式治疗装置及相关的口吃增强治疗方法，通过引用将其内容结合于本文中，好像是在这里完整记载一样。这些装置及方法采用通过便携式配置的装置传送给口吃者的改变听觉反馈(听觉延迟和/或频移信号)。尽管如此，仍然需要提供改进的方法及装置来治疗口吃，以便以便捷有效的实现方式来提高流畅性。

发明概述

本发明通过若干方法及装置来满足这些及其它目的，其中，所述方法及装置采用与发出的声音或自然语音对应的声音产生的“第二”外部生成语音信号(与说话者/口吃者现场发出的语音无关)。第二外部语音信号或者可由所发出的语音之外的语音来生成，以便模拟自然语音(例如以电子、机械或机电方式生成)；这些模拟的声音应配置为模拟触发说话者听觉皮层的话音表示。本发明的第二语音信号可用来替代DAF或MAF，它通常处理、改变或干扰说话者本人(他或她)的同期语音或与其竞争。本发明的第二语音信号是听觉刺激，该听觉刺激是发出的语音信号(即与人的声带有关的话音表示)。第二语音信号可以是结结巴巴的或者是流利的、和/或连贯的(形成单词的一串有意义的声音)或不连贯的(不含可理解或有意义内容的声音)。

第二语音信号最好包含与诸如单音节元音或辅音、或元音和/或辅音的组合的自然话音表示有关的发出的延长音。本发明的第二语音信号能够传递给用户，使它间歇地持续一段预定时间，或者与接受口吃治疗的用户/患者的语音产生基本连续。

本发明的第二或外部生成的听觉语音信号最好是由说话者或患者/口吃者以外的某个人在外部生成(或者如上所述，由基本能够复制声道输出以触发说话者的听觉皮层的装置所产生)。第二语音信号还最好是在使用前被记录并存储，使其能够在预期时间(并在适当时间进行重复)方便可靠地提供给或清晰地传递给说话者。

在一个实施例中，外部生成的第二语音信号是发出的延长语音(例如单词“sudden，突然”中的最后一个音)。更优选的方法是，延长的语音是稳定状态的单音节音。更加优选的方法是，延长的语音是与产生稳定状态元音相关的声道输出。可以在倾向于口吃的人或患者开始谈话时和/或在谈话过程中插入式地、例如当某个人开始口吃或经历口吃事件时，提供外部生成的语音信号，或者甚至在流利谈话期间的间隔提供外部生成语音信号以防止出现口吃事件。

第二语音信号可以作为不同话音表示声音的排列来提供，其输出可以有所变化，以便随时间来改变提供给患者的外部生成语音信号听觉刺激。

在最佳实施例中，第二或外部生成的语音信号是预先记录的，并在预期或适当的时间传递给用户(或者通过用户输入激活，或在检测到口吃事件时自动激活)。输出的音量和/或占空比最好是可变的，以便允许用户根据其需要来调节输出。也就是说，在一个实施例中，使用者能够增加或减少所传送的第二语音信号的时长或频率，从在语音产生期间或在预期输出时段期间连续输出信号的连续范围到在预期输出时段期间以预期的可调间隔间歇地输出信号。

第二语音信号能够由诸如ITE(耳内)、BTE(耳后)或OTE(耳上)口吃辅助装置之类的便携式小型装置来保持及传送。或者，第二语音信号听觉刺激可从具有扬声器的独立手持式装置生成(或者作为诸如光盘或磁带之类的音频媒体、或者可下载的计算机代码、或者其它计算机可读程序格式来提供)，或者结合到具有话音或麦克风输入的通信装置(例如电话听筒或底座或者无线电话机身、双向耳机等)或者诸如手写工具之类的其它装置中。在其它实施例中，第二语音信号能够保持或结合到音频芯片或组合在(手)表、手镯、领针、项链或者诸如项链和耳环之类的佩带(在用户的听力范围内)的珠宝或头饰带、帽子等中的DSP中。

本发明的一个方面是一种用于提高口吃者的流畅性的方法，包括以下步骤：(a)外部生成语音信号(与患者的同期语音产生无关)；(b)由具有口吃倾向的人产生语音；以及(c)短暂地跟着所述产生步骤，将所述外部生成的语音信号传送给患者，使之可听到该外部语音信号。

在一个最佳实施例中，外部生成的语音信号被存储或预先记录，以便以预期间隔或在适当时间反复回放和/或以可听方式传送给患者。外部或第二语音信号还最好是由患者之外的人来产生。

本发明的另一个方面涉及提高口吃者的流畅性的装置。这种装置包括音频存储媒体，其上包含至少一个预先记录的听觉刺激语音信号；以及扬声器，在操作上与音频存储媒体有关以从中输出语音信号。装置还包括与音频存储媒体和扬声器进行通信的电源以及在操作上与电源有关的激活开关。装置经过配置，使听觉刺激或第二语音信号能够在与插入口吃事件期间；说话事件之前(用户方面产生语音)；以及说话事件期间至少其中之一相对应的预期时间反复输出给用户，从而向用户/口吃者提供听觉刺激以提高其说话的流畅性。

在一个最佳实施例中，装置包括在操作上与扬声器相关的用户输入触发开关。用户输入触发开关配置用来接受用户输入，以便开始基本上即时地传送听觉刺激(第二语音信号)，让用户能够听见。装置还可以包括间歇输出开关或按钮，它能够允许用户来确定所传送输出信号的长度或重复周期(允许用户改变听觉刺激)。同样，该装置可以包括可选信号按钮，以便允许用户选择将要传送的信号或者在预期时段自动改变输出信号。

在一个实施例中，装置还包括麦克风及信号处理器，配置用来接收由用户的语音所产生的信号。在这个实施例中，该装置能够根据与用户的语音相关的所接收信号的分析自动向用户输出听觉刺激语音信号，使听觉刺激语音信号与用户的语音基本上同时提供，而与用户的同期语音本身的听觉反馈或操作无关。有利地是，听觉刺激语音信号通过一种允许用户以基本正常的语速说话的方式来进行传送。

该装置还能够配置用于通过监测麦克风和信号处理器所接收的信号来识别用户方面语音产生的开始以及用户的语音结束。装置能够在用户说话时(例如与用户说话的同时或在这个过程中)基本上连续地或间歇地输出听觉刺激语音信号。

在一个实施例中，装置还可以包括在操作上与处理器和接收器(麦克风)相关的检测器。检测器配置用来检测口吃事件开始或实际的口吃事件，以及在操作中，当识别到用户方面即将出现口吃或者实际的口吃事件开始时，该装置能够向用户输出听觉刺激语音信号。

如上所述，听觉刺激语音信号可包含与话音表示相关的多个不同的自然语音延长音，它们与用户的同期语音无关，并可配置为连续向用户输出。

有利地是，发出的外部生成或第二语音信号是与口吃者/用户的语音产生不一致的有声通信、发声或语音。因此，本发明提供一种听觉刺激，它可以是提高口吃者流畅性的有效声音机制，同时还允许用户以基本正常的语速说话，并且不要求使用DAF或MAF。第二刺激语音信号可以是有意义的或者无意义的，并且能够以不一致的文本或口述语音以正常或口吃流利程度或者以具有适当时长或延长或持续的话音表示音的稳定状态口述语音信号来提供。

以下说明中详细阐述本发明的上述及其它目的和方面。

附图概述

图1是根据本发明的装置的一个实施例的示意图，该装置配置用来向用户传送作为听觉刺激的外部生成自然语音信号。

图2是根据本发明的一种方法的步骤方框图，用于提高口吃者的流畅性。

图3是根据本发明的装置的另一实施例的示意图。

图4是根据本发明的装置的另一实施例的示意图。

图5A是根据本发明的一个实施例的耳后(BTE)装置的侧视图。

图5B是根据本发明的一个实施例的耳内(BTE)装置的侧视图。

图6是根据本发明的装置的另一实施例的示意图。

图7A-7G说明根据本发明的装置的示范实施例，这些装置能够传送外部第二语音信号。

图8是根据本发明的实验结果图，从第一实验说明作为听觉反馈函数的平均口吃频率。

图9是根据本发明第二实验结果图，说明作为听觉反馈函数的平均口吃频率。

最佳实施例说明

下面将参照附图对本发明进行更详细说明，附图中给出了本发明的最佳实施例。不过，本发明可按照许多不同形式来实现，并且不应当认为是限制于本文所述的实施例。相同的标号始终表示相同的元件。在图中为清楚起见，可能放大一些层、区域或组件。

如图1所示，装置10配置用来向扬声器提供外部生成的听觉(第二)语音信号10s。如图所示，装置10最好是配置用来在时间上接近地或者最好是与说话事件基本上同时地(当患者或用户说话时)向用户传送语音信号10s。本文所用术语“外部”表示由用户外部的途径生成，最好是由患者/用户之外的人来生成，或者当它由用户生成时，则在使用前进行预先记录。大家知道，本发明的听觉刺激不要求用户的同期语音的现场处理或反馈，并且与用户语音的内容不一致。

本发明的外部生成语音信号可被认为是“第二”语音信号，其中，第一语音信号通常与说话者的实际语音相关。与许多传统的口吃装置及治疗不同，本发明采用第二外部生成的语音信号作为听觉刺激。也就是说，第二语音信号是自然或口述语音信号(与声带有关的话音表示)，它与说话者本人的语音不是同时生成的，或者不是与说话者本人的同期语音相关的。第二语音信号也不是配置用来中断(或者延迟或屏蔽或反馈)用户实际同时发出的语音。因此，本发明的第二语音信号是与用户的同期语音无关且分离的，并且作为听觉刺激而提供，以便允许用户以提高的流畅性以基本正常语速说话。第二自然语音信号可以是连贯的也可以是不连贯的(就是说，第二外部生成的自然语音信号对于用户可以具有可理解的含义，或者对用户没有任何含义，相反，自然语音信号可以是话音表示或话音表示的集合)。在一个实施例中，第二语音信号被提供给患者/用户，使它与用户的第一语言相同。或者，可通过不同于用户的第一语言的语言所发出的语音来产生第二语音信号。

图2说明一种方法，该方法用于根据本发明的一个实施例提高口吃者的流畅性。该方法包括以下步骤：(a)外部生成第二语音信号(框100)；以及(b)将外部生成的语音信号传送给患者(在患者的语音产生过程中和/或接近时)，使第二语音信号可以被听到(在患者的语音产生过程中或接近时)(框120)。

在一个实施例中，该方法还可选地包括以下步骤：记录或存储除患者之外的人的话音，以提供外部生成的第二语音信号(框130)。以允许第二话音信号被重构或者在适当或预期时间向患者或用户反复播放及传送的方式来进行第二语音信号的记录或存储。这样，患者在需要时就有一种可靠的说话辅助在流利性方面提供帮助。

第二或外部生成的语音信号可以是结结巴巴的或者是流利的。第二语音信号可包括延长的话音表示或者口声，例如延长的单元音或辅音或者元音和/或辅音的组合，可以是独立形式也可以是组合形式，下面将会进一步说明。此外，本发明的外部或第二语音信号能够在患者或用户正在说话时以间歇方式(例如25-75％的占空比或其组合)提供给患者(即在患者/用户方面的语音产生期间是间歇的)。或者，能够提供第二语音信号，使该信号持续一段时间，或者使语音信号在语音产生期间基本上连续地传送给用户。第二信号最好是传送给用户，使它或者是装置的启用、用户/患者的语音产生的延续，或者是用户/患者的口吃事件的开始或在此期间的延续。还能够在输出语音之前(或者在时间上接近时)以及在说话者/用户正在说话时基本上连续地或间歇地提供第二语音信号10s。

如上所述，第二或外部生成的听觉语音信号最好是由用户或口吃者之外的某个人来产生。第二语音信号可能由某个装置来产生，例如细长管，它经过配置以充分复制与人的话音表示音相关的话音或声道或声带，以便在操作中使复制的有声信号能够触发口吃者/用户的听觉皮层。当然，口吃者能够在使用之前记录适当的(预定且不一致的)延长的第二语音信号，以便将来用作第二语音信号进行播放。但更为经济的方法是“烧制”或记录大量适合广泛听众的标准第二语音信号。因此，本发明基于有声的语音信号还最好是在使用之前进行生成及保存(记录、“烧制”、和/或存储)，使它能够在预期时间方便可靠地播放或输出。

所生成的本发明的外部生成第二语音最好还包括延长的口述话音表示(强调所选的口声)。更可取的是，第二语音信号包括至少一个口述延长音节音(例如单词“sudden，突然”中最后的音)或者响音或连续音。本文所用术语“延长”表示在正常语音模式上强调或保持话音表示音，最好是表示将话音表示保持在基本上稳定状态形式大约至少2-30秒。更加可取的是，第二语音信号包括任何适当语言(罗曼语或其它的人类口语)的口述简单持续或稳定状态的元音。例如英语中的简单持续无音/a/、/i/、/e/、/o/、/u/以及/y/。

在另一个实施例中，外部有声语音信号包括诸如三元音串的元音串。例如在英语中表示元音三角形的三个角的三元音串/a-i-u/或其它元音串或者连续发出的持续元音声。同样，第二语音信号可包括辅音串或连续发出的(最好是延长或持续的)辅音和/或元音或其组合或响音或连续音。

可取的是，将第二语音信号传送给用户或口吃者，使它具有至少大约5秒至2分钟的持续时长。更可取的是，第二语音信号经过传送，使它具有至少大约5-10秒的时长，并在正进行的语音产生过程中根据需要每隔10-30秒至每隔1-2分钟来提供(能够以相同的时间间隔进行重复或者能够以更近及更长的时间间隔间歇地传送)，使信号在用户方面的语音产生的全过程中被间歇地传递给用户。还应当注意，第二语音信号可作为单一短信号(例如大约1-5秒的信号)被记录，然后再进行循环，以便提供较长长度的输出第二语音信号。例如，具有1秒(时长)长度的外部生成语音信号能够以电子方式(例如通过数字或模拟方法)循环10次，以便向用户输出10秒的信号。

第二语音信号的输出或传送可由结合到装置中的定时器进行改变和/或定时或控制，所述装置安排第二信号传输输出的时间(例如根据装置的启动或从初始传送或输出第二语音信号)。不过，如上所述，第二语音信号能够作为基本上连续(通常与语音产生本身的时长重叠)或在用户或患者的语音产生过程中响应用户需要间歇地提供(或者在用户或患者的语音产生过程中或者与其接近时根据需要来提供)。同样，本发明的外部生成语音信号可以就在倾向于口吃的说话者的语音产生开始之前或在其开始时提供，和/或在语音过程中、例如当某个人开始口吃或经历口吃事件时定期提供(任何一种都能够以若干种方式提供，例如通过用户输入或装置上的激活按钮)。该装置也可具有可选的占空比或定时功能输入，以便允许用户选择或改变预期时长或输出传输周期(未标出)。

在一个实施例中，第二语音信号可作为不同口述或话音表示音的排列提供，以随时间改变提供给用户的外部有声语音刺激。例如，提高的流畅性治疗可以这样执行：提供包含持续稳定状态/a/话音表示音的第一外部语音信号(最好是在时间上接近于语音产生的开始或者第一口吃事件时传递给用户)，随后提供包含持续/e/的第二不同的外部语音信号(最好用于后续口吃事件或者也许用于在时间上与第一语音产生事件的开始分开的第二说话事件或语音产生，或者用于不同的说话时段)，随后提供第一外部信号(重复地)或第三不同的外部信号，比如另一个基本上持续稳定状态的元音或元音串或持续辅音等。

本发明的方法及装置还可为外部生成的第二语音信号提供可选自然语音信号的混合，其中的一部分可为特定类型的口吃症状或者特定的用户以及为其它语言交流症状提供改善的结果。例如，可将外部生成或第二语音信号记录到具有多个声道的光盘(或磁带)上，每个声道提供不同于其它的第二语音信号(不同的口语发声或话音表示)。或者，诸如音频芯片或DSP单元的可变存储媒体可用来提供可选或可变的第二语音信号，从而提供可选或可变的听觉刺激。

再来看图1，本发明包括装置10，它在操作中配置用来向患者提供、中继或传送预先记录或存储的第二语音信号10s。第二语音信号10s最好是由用户之外的某个人外部生成。如图1所示，装置10最好包括至少一个扬声器25、电源27以及语音或音频信号存储媒体20。如图1所示，装置10最好是还包括一个用户可访问的开/关启动开关28，以便使电源27(例如电池)能够在不使用期间被断开，从而保存电池寿命(当装置未连线或连接到电气插座时)。语音信号存储媒体20在操作上与扬声器25和电源27相关，使装置10能够在启动时输出第二语音信号。可选的是，可通过遥控单元33’启动装置10和/或调整语音信号10s输出的各种参数(例如它的音量、信号时长或长度、信号音类型等)。

语音信号10s可由任何数量的适当语音信号存储媒体20来捕捉及保持，其中作为非限制实例包括：处理器电路，包括诸如DSP芯片的数字信号处理器；音频卡；声音芯片；通用计算机；光盘；磁带；计算机程序产品(包含可从因特网网站下载的)；或其它录音或音频存储媒体。

图3说明本发明的另一个实施例。如图所示，装置10’包括处理器30，它在操作上与扬声器25相关。处理器30可以是模拟或数字信号处理器，最好是诸如DSP之类的微处理器。处理器30配置用来将语音信号10s提供给扬声器25，以便用户可以听到。如图所示，装置10’还可包括用户开始/停止触发开关33，它配置用来允许用户生成语音信号10s的基本上直接的输出(或终止)。图中还表明，装置10’可包括音量控制23和/或可变信号输出调节器29，以便允许用户根据其需要调整信号10s的输出。也就是说，在一个实施例中，如图所示以虚线连接到调节器29，用户能够增加或减少所传送的第二语音信号10s的时长或频率，其调整范围从在语音产生过程中或者在预期输出时间(t1)期间连续输出该信号的连续输出范围到在预期输出周期(t1)以预期可调间隔间歇地输出该信号的间歇输出范围。

图4说明本发明的另一个实施例。在本实施例中，装置10”配置用来监测用户语音的至少一部分，以便能够识别用户语音的开始和结束(从而识别说话事件的时长)。装置10”可使用该信息在用户说话的同时自动传送语音信号10s，而不要求用户手动启动装置10”。或者，装置10”可包括检测器电路50来检测口吃事件的开始或发生，以便对所检测的定期口吃事件进行响应而传送语音信号10s。装置10”当然也可另外利用能够手动启动的用户触发器33。装置10”最好是配置为OTE、BTE或ITE装置之一(如图5A和5B所示)。在授予Rastatter等人的美国专利No.5961443中描述了适当的小型便携式装置的典型部件及其说明的其它详细情况。

如图4所示，装置10”包括接收器70，如麦克风或传感器，配置用来接收在操作中与用户的语音产生相关的声波。接收器70产生对应于用户语音的声音的模拟输入信号。如图4所示，模拟输入信号最好转换为数字输入信号流，以便后续分析。在一个实施例中，装置10”包括低通滤波器72以防止失真。低通滤波器72位于接收器70之后以及A/D转换器76之前。低通滤波器72的截止频率最好是在数字化之后足以再现可识别的话音采样。传统的话音截止频率大约为8kHz。对较高频率进行滤波还可消除不希望的背景噪声。

低通滤波器72的输出可以输入采样保持电路74。正如本领域众所周知的那样，采样速率应超过低通滤波器72的截止频率的两倍，以便降低引入采样误差的可能性。采样保持电路74输出的采样信号则输入A/D转换器76。表示足以使装置10”确定用户已经开始或终止语音产生的所希望的数据采样的数字信号流则馈入控制器30’，它配置用来分析数字流以确定是否已经开始、终止或正在进行语音产生。

如图所示，控制器30’与电源27及扬声器25进行通信。在本实施例中，装置10”还包括语音信号芯片82，它存储记录的音频第二语音信号10s。控制器30’当然可以是DSP或其它本身能够保持或存储音频语音信号的信号处理器。也就是说，语音信号芯片82不需要是独立的组件，表示为这种形式只是为了便于附图中的说明。装置10”还可包括可调节增益放大器86，以便将信号10s的输出调节到所希望的适合收听的水平。

在操作过程中，控制器30’分析与来自接收器70的输入信号相关的数字流，以便确定用户是否已经开始说话(通常由超过某个预定阈值电平的模拟或数字语音信号表示)。如果是，控制器30’则可开始自动为扬声器25供电，并将语音信号10s输出到扬声器25。控制器30’可以继续监测数字流的采样，以便确定语音是否正在继续，从而继续启用语音信号。如上所述，能够在说话的过程中间歇地或者与语音基本上连续地输出语音信号。一旦控制器30’确定语音已经终止，则也可以自动终止语音信号10s。

同样如图4所示，装置10”可包括激活/去活电路60，配置用于中断从接收器70(例如麦克风)向耳机或扬声器25的传送。授予Vildgrube等人的美国专利No.4464119中描述了这种电路的一个实施例，通过引用将其内容结合于本文中，好像在本文中完整叙述了一样。因此，装置10”可经过配置，使它能够在用户语音产生下降到低于预定阈值电平时通过切断电源或转换到“待机”状态来手动和/或自动中断。

在一个实施例中，装置10”可包括口吃检测器电路50。该检测器电路50与控制器30’以及对应于用户语音的数字数据流相关。检测器电路50经过配置，在操作过程中使它可识别不规则的语音产生模式，能够使控制器30’立即向用户传送语音信号10s以提高流畅性。如果第二语音信号已经传送给用户，装置10”则还可提高信号的音量，或者可将传送给用户的语音信号改变为不同的第二语音信号，如上所述。可通过声音的延长(对应于部分单词或单词延长)、声音的重复(对应于部分单词或单词重复)等识别典型的不规则语音模式。虽然图中表示为独立于控制器30’的电路，但检测器电路50也可结合到控制器30’本体中(作为硬件、软件或其组合)。识别口吃事件的适当方法的实例在以下参考资料中进行了说明：Howell等人，“自动识别口吃儿童语音中的不流利性的二级步骤的发展：II.配备单词段标记的重复及延长的ANN识别”，(Journal of Speech，Language，& Hearing Research.40(5)：1085-96)(1997年10月)；Howell等人，“自动识别口吃儿童语音中的不流利性的二级步骤的发展：I.适用于选择词汇不流利性分类器的培训资料的心理测量步骤”(Journal of Speech，Language，&Hearing Research，40(5)：1073-84)，(1997年10月)；Howell等人，“自动识别口吃语音中的重复及延长”(C.W.Starkweather and H.F.M.Peters(Eds)，Proceedings of the First World Congress on FluencyDisorders，Vol.II(pp.372-374)，Nijmegen，The Netherlands：UniversityPress Nijmegen.)(1995)；以及Howell等人“自动口吃频率计算”(W.Hulstijn，H. Peters and P.Van Lieshout(Eds.)，Speech Production：MotorControl，Brain Research and Fluency Disorders，Amsterdam：ElsevierScience，395-404)(1997)。通过引用将这些参考资料的内容结合于本文中，就像在本文中完整地叙述一样。

图6说明检测器电路50的一个实施例，它采用话音比较器80来比较用户的语音模式，以识别与口吃事件开始或发生(或终止)相关的不规则语音模式。话音比较器80配置用来将流利的或正常的话音信号与不规则或口吃的话音信号进行比较，以便识别口吃事件的出现。

如上所述，第二语音信号能够由例如图5A和5B所示的诸如ITE(耳内)、BTE(耳后)或OTE(耳上)口吃辅助装置之类的便携式小型装置来保持及传送。这些装置可以配置为用户的单耳或双耳输入装置(放置在单或双耳中或其接近)。

或者，本发明的基于听觉语音的刺激也可按照多种方式来提供。在某些实施例中，音频刺激可以从独立的手持式或佩带式装置中产生，或者作为光盘(图7C)或录音磁带来提供，或者作为可下载的计算机程序代码(例如从全局计算机网络系统中提供)或其它计算机可读程序格式代码来提供。第一种类型可通过典型的磁带播放机和CD播放机来输出，后一种类型则可以通过通用(图7G)、膝上型或小型、手持式、掌上或可佩带计算机来播放或输出。

最近，消费者电子产品公司已经提议了可佩带在上衣上的装置(具有身体区域网络特性)。这种装置还包括耳机，它允许用户使用同一耳机或头戴受话器接听电话及收听音乐，并且配置用来允许用户通过遥控切换装置在两个模式之间切换。这种技术可适用于将本发明的第二语音信号结合到类似装置中，以便作为目前允许的输出、音乐、第二语音信号以及接听电话的替代或者补充。因此，第二语音信号可在输出启动时经遥控单元从耳机输出，以便当用户正在通过同一耳机接听电话时，将第二语音信号传递及输出到耳机中。参见例如“伴随个人网络的新型有线服装”，cnn.com/2000/TECH/computing/08/18/wiredjacket.idg/index.html(2000年8月18日提供)。通过引用将此文档的内容结合于本文中，就像是在本文中完整地叙述一样。

或者，本发明的第二语音信号音频刺激也可以结合到传统的消费者装置中。例如，预计本发明的音频自然语音信号刺激能够结合到具有话音或麦克风输入的通信装置(例如电话的听筒或底座或者无线电话机身)或者能够在操作过程中通常预计用户在各个时间说话时便于访问及使用的其它音频提示装置中。图7A表明可以从电话200的一个或多个底座204或听筒202传送第二语音信号10s。图7B表明可以从无线电话机身210传送信号10s。

在其它实施例中，第二语音信号10s能够由手表220(图7F)、手镯、领针或上衣夹、项链230(图7E)或其它要佩带(在用户或患者的听力范围内)的珠宝、头饰带、镜架、帽子等来保持及提供。图7D说明一种耳机装置，它配置用来提供表示为从耳机240所输出的双耳传递的第二语音信号10s。图7C说明一种光盘或其它音频存储媒体240，图7D则说明具有音频输出的计算机250。在任何一种情况下，与本发明相关的外部生成听觉刺激都可以是一种提高口吃者的流畅性的有效听觉机制。

本发明的装置10、10’、10”的某些实施例可采用外部电池组，其它实施例则可采用内部电池电源。当然也可采用延长绳路、直接电源线以及连续补充充电器。具有DSP、外部电池及处理组件的已知BTE助听器的一个实例是MCOLET Comnpany of Madison，Wisconsin生产的PHOENIX。

本领域的技术人员知道，本发明可作为方法、装置或者计算机可执行程序来实施。因此，本发明可采用硬件实施例或者结合了软件和硬件特征的实施例形式。

另外还采用流程图示及方框图对本发明进行说明。应该理解，(流程图示及方框图的)每个框及其组合可通过计算机程序指令来实现。这些程序指令可提供给移动用户终端或系统中的处理器电路，使得在处理器电路上运行的指令创建用于框中所指定功能的方法。计算机程序指令可由处理器电路执行，使处理器电路所执行的一系列操作步骤产生计算机实现的过程，从而使得在处理器电路上执行的指令提供用于实现框所指定的功能的步骤。

因此，这些框支持用于执行指定功能的方法组合、用于执行指定功能的步骤组合以及用于执行指定功能的程序指令方法。还要知道，每个框及其组合能够由执行特定功能或步骤的基于专用硬件的系统或者专用硬件及计算机指令的组合来实现。

实例

外部口吃及正常语音信号被生成并进行有效性比较。使用了不一致的语音信号，以便将外部口吃语音的固有不一致特性与不一致的流利语音的特性(在不一致的语音中，第二语音信号包含与参加人员所朗读的不同的语音材料)进行比较，来确定是否实现流畅性降低，以及不一致的第二语音信号的哪些成份可能导致了口吃的降低(或流畅性的提高)。因此，以动态和相对静态的声道位置来检验元音和辅音的自然分类方案。实验I涉及有意义的语音：正常连续语音、正常断续语音、口吃连续语音以及口吃断续语音。实验II涉及元音及辅音：/a/、/a-i-u/、/s/、/s-sh-f/。

十名口吃的正常听力成人(8名男性，2名女性，平均年龄27.9，SD 9.4)参加了这两个实验。参加人员不存在任何其它语音和语言障碍。所有参加人员都有治疗的历史，但目前都未接受任何正规的治疗活动。参加人员朗读300个音节的不同的低年级高级短文，在两个实验中均采用相似的主题及语法复杂度。这两个实验是平衡的，实验条件和短文则是随机的。在整个实验过程中，参加人员被指示以正常的速率进行朗读，并且不使用任何控制来减少或防止口吃。在这两个实验中，参加人员通过适当收听水平的耳挂式耳机来收听听觉反馈。

第一个实验要求参加人员收听连续或间歇提供的不一致的流利或口吃语音采样(50％占空比)。两种语音采样都是不一致的记录文本。口吃语音采样包含了对所有单词的不连续口吃动作。

在第二个实验中，参加人员收听四个连续的语音信号：稳定状态的中性元音/a/；表示元音三角形的三个角的三元音串/a-i-u/；稳定状态的辅音/s/；以及三辅音串/s-sh-f/。选择这些辅音是因为它们可以出现在没有元音的情况下。稳定元音和辅音及元音和辅音串用来表示接近说话动作的不同等级。参加人员还朗读具有非改变的听觉反馈(NAF)的控制短文。从参加人员的录像带记录短文中计算口吃事件。口吃被定义为部分单词重复、部分单词延长和/或无声的姿势固定。

在声学处理房中采用数字磁带录音机(SONY型号8819)记录这些采样的刺激。对于这两个实验，正常流利地说美国英语的成年男性产生元音、辅音以及流利的语音采样。对于第一个实验，说美国英语的成年口吃男子产生口吃的语音采样。两个说话者以正常的有声作用产生语音采样。流利的语音采样采用低年级高级课本短文的文本，它们具有与实验参加人员所朗读的同样的主题及语法复杂度。

记录的信号则通过APPLE声音输入端口馈入个人计算机(ApplePower Macintosh 9600/300)。以44kHz进行采样。声音分析软件(SOUND EDIT第2版)用来导入静寂，选择各种口吃时刻，并循环这些信号。静寂间隔从两秒至五秒随机变化。然后，它们被记录到用来经光盘播放器(SONY型号CFD S28)传送信号的光盘上。经耳机(OPTIMUS型号PRO.50MX)以适合参加人员的听觉水平以双耳方式传送这些信号。所有参加人员对着大约0方位角及-120高度定向、固定在离他们的嘴巴约15cm以内的佩带式麦克风(RADIOSHACK型号33-3003)说话。麦克风输出馈入摄像机(SONY型号CCD-TVR75)。

实验1的作为听觉反馈条件的函数的平均口吃频率及口吃频率的标准误差如图8所示，误差带表示平均值的加一标准误差。图中，“NAF”表示未改变的听觉反馈，“FI”表示流利断续，“SI”表示口吃断续，“SC”表示口吃连续，以及“FC”表示流利连续。如图所示，可看到听觉反馈对口吃频率的明显主要作用(p＝0.0004)。单一-df比较表明，相对于NAF，所有形式的改变听觉反馈对口吃有明显的降低(p＜0.0001)。在流利和口吃的语音反馈之间(p＝0.76)、或者连续及断续的语音反馈之间(p＝0.10)没有观察到任何统计上明显的差别。

对于实验II，作为听觉反馈的函数的口吃频率的平均值及标准误差(即口吃事件数量/300音节)如图9所示。误差带表示平均值的加一标准误差。图9中，“NAF”表示未改变的听觉反馈。可看到听觉反馈对口吃频率的明显主要作用(p＝0.0006)。在此之后的单一-df比较表明，相对于NAF，所有形式的改变听觉反馈对口吃频率有明显的降低(p＜0.0001)。相对于辅音而言，当听觉反馈是元音(一个或多个)时，统计上也有明显减少的口吃事件(p＜0.0001)。在单一语音成份对语音成份串之间未发现口吃频率中的明显差别(p＜0.40)。

这组实验提供了经验资料：外部生成的口吃不一致有声或口述语音信号能够导致或提高口吃者的流畅性。实际上，这些结果表明，口吃频率能够被降低，而不管外部信号是基于口吃的还是正常的语音。此外，包含元音的外部生成有声语音信号的使用在提高口吃者的流畅性方面可提供改善的功效。

综上所述，口吃可能是一种对中枢级上的“无意识障碍”的自然补偿机制，而不是外部表现问题。换句话说，口吃者尝试产生中枢级语音执行中的“无意识障碍”的听觉释放机制。口吃的明显表现是试图在外部级上补偿中枢级上的失控，尽管是通过惹人注意的补偿。因此，口吃被假定为一种形式的补偿而不是其本身的问题。口吃可模拟为传染病状态中的发烧。缺乏适当的流利提高表示被假定为主导病原因数，它因为在消化平滑执行说话动作的适当方案中对听觉皮层的部分缺乏抑制而得到显示或表明。最近的大脑成像过程已经采用齐声语音条件来诱导口吃成人的流利语音，并将所获取的大脑图像与口吃事件/行为过程中所获取的进行比较。参见例如Fox等人的“口吃的神经系统的PET研究”(382 Nature，pp.158-161，1996)；Wu等人的“试验性口吃的正电子X射线层析术[¹⁸F]脱氧核糖核酸酶研究”(6Neuroreport，pp.501-505，1995年)。观察到口吃语音的运动神经规划中听觉区没有激活，但注意到齐声语音条件下的基本标准化，表示流畅性提高的可能性。

以上是对本发明的说明，而不能理解为对它的限制。虽然已经说明本发明的若干示范实施例，但本领域的技术人员知道，许多修改在示范实施例中是可行的，只要在实质上不背离本发明的新颖论述及优点。因此，所有这些修改均包含在如权利要求所定义的本发明的范围之内。在权利要求中，所用的方法加功能短语意在涵盖本文所述执行所述功能的结构，不只涵盖结构等效体而且涵盖等效结构。因此应当理解，以上所述是对本发明的说明，而不能理解为限制于所公开的具体实施例，对所公开实施例以及其它实施例的修改均包含在所附权利要求的范围之内。本发明由以下权利要求所定义，权利要求的等效体亦包含在其中。

Claims

1.一种用于提高口吃者流畅性的方法，包括以下步骤：

外部生成第二语音信号；

产生形成对应于正在说话的患者的第一语音信号的语音，所述患者具有在语音产生过程中口吃的倾向；以及

在时间上接近所述产生步骤时将所述外部生成的第二语音信号传送给所述患者，使所述第二语音信号可由所述患者听到，从而提高所述患者的流畅性。

2.如权利要求1所述的方法，其特征在于所述第二语音信号与在所述产生步骤中提供的所述第一语音信号的内容不一致。

3.如权利要求1所述的方法，其特征在于所述传送步骤是在所述产生步骤之前并在时间上与其接近的时候执行的。

4.如权利要求2所述的方法，其特征在于所述患者在所述产生步骤期间以基本正常的语速说话。

5.如权利要求1所述的方法，其特征在于所述外部产生的第二语音信号包括延长的话音表示音。

6.如权利要求5所述的方法，其特征在于所述延长的话音表示音持续至少5秒。

7.如权利要求1所述的方法，其特征在于在所述产生步骤期间间歇地提供所述传送步骤。

8.如权利要求1所述的方法，其特征在于所述外部生成的第二语音信号包括持续至少5秒的基本稳定状态的单元音声。

9.如权利要求1所述的方法，其特征在于所述外部生成的第二语音信号包括具有时长至少为5秒的基本稳定状态的单辅音。

10.如权利要求1所述的方法，其特征在于所述外部生成的语音信号包括所述患者之外的某个人所说的多个延长音，其中至少包括下列之一：(a)持续元音串声，(b)持续辅音声，以及(c)持续单元音声。

11.如权利要求10所述的方法，其特征在于所述外部生成的语音信号包括连续传送给所述患者的多个所述延长有声声音。

12.如权利要求1所述的方法，其特征在于还包括检测口吃事件的步骤。

13.如权利要求12所述的方法，其特征在于所述传送步骤是响应所述检测步骤而进行的。

14.如权利要求1所述的方法，其特征在于所述传送步骤是响应开始所述传送步骤的用户输入而进行的。

15.如权利要求2所述的方法，其特征在于所述传送步骤是在所述产生步骤期间以基本上连续传送的方式进行的。

16.如权利要求1所述的方法，其特征在于还包括在音频媒体中存储所述外部生成的第二信号的步骤，其中，所述外部生成的第二语音信号由来自所述患者以外的某个人的口述话音提供。

17.如权利要求16所述的方法，其特征在于所述传送步骤是通过传送所述存储的第二信号进行的。

18.如权利要求17所述的方法，其特征在于所述传送步骤在所述产生步骤期间重复多次。

19.如权利要求16所述的方法，其特征在于所述外部生成的语音信号包括多个不同的口述声，其中的每一个都具有至少约10秒长的持续时长。

20.如权利要求1所述的方法，其特征在于进行所述传送步骤，以便从位于接近所述患者至少一个耳朵的源传送所述第二信号。

21.如权利要求1所述的方法，其特征在于执行所述传送步骤，使所述语音信号从远离所述患者耳朵的位置进行传送，并在所述患者说话时经空气传送并进入所述患者的耳朵。

22.如权利要求19所述的方法，其特征在于所述外部语音信号可由所述患者调节，使所述患者能够选择要在所述传送步骤期间提供的所需信号时长及音量。

23.如权利要求16所述的方法，其特征在于所述传送步骤包括从通信装置的耳机传送所述生成的第二语音信号的步骤。

24.如权利要求1所述的方法，其特征在于所述外部生成的第二语音信号包括多个口述语音信号，以及其中所述传送步骤包括随时间改变传送给所述患者的语音信号内容。

25.如权利要求1所述的方法，其特征在于所述外部生成的第二语音信号包括与所述患者在所述产生步骤期间所提供的语音内容不一致的口吃的口述语音信号。

26.如权利要求1所述的方法，其特征在于所述外部生成的第二语音信号包括与所述患者在所述产生步骤期间所提供的语音内容不一致的正常流利的口述语音信号。

27.如权利要求16所述的方法，其特征在于所述传送步骤由OTE、BTE及ITE装置之一执行。

28.如权利要求16所述的方法，其特征在于通过将所述外部生成的第二语音信号记录到光盘上来执行所述记录步骤。

29.如权利要求1所述的方法，其特征在于所述第二语音信号是与所述产生步骤期间的所述语音输出不连贯且不一致的，以及其中所述传送步骤在所述产生步骤期间重复进行。

30.如权利要求16所述的方法，其特征在于所述传送步骤由便携式手持装置、通用计算机、无线通信装置以及电话之一来执行。

31.如权利要求16所述的方法，其特征在于所述传送步骤由配置用于作为带夹、手表、帽子、领针、上衣夹以及别针之一佩带的装置来执行，它们在操作中经过适当定位，从而可与所述患者进行听觉通信。

32.一种提高口吃者流畅性的装置，包括：

音频存储媒体，其上包含至少一个预定听觉刺激外部生成的口述语音信号；

扬声器，在操作上与所述音频存储媒体相关；

电源，与所述音频存储媒体及所述扬声器通信；以及

激活开关，在操作上与所述电源相关；

其中，所述听觉刺激语音信号配置用于在对应于至少以下情况之一的适当时间向用户反复输出，从而向口吃者提供听觉刺激以提高其语音的流畅性：用户方面插入的口吃事件，所述用户产生语音之前，以及所述用户产生语音期间。

33.如权利要求32所述的装置，其特征在于所述装置还包括用户输入触发开关，它在操作上与所述扬声器相关，以及其中所述用户输入触发开关配置用来接受用户输入，以开始基本上立即传送所述听觉刺激第二语音信号，使用户能够听到。

34.如权利要求32所述的装置，其特征在于所述装置还包括配置用来接收及分析用户语音所生成的语音信号的麦克风及信号处理器。

35.如权利要求34所述的装置，其特征在于所述装置配置用来根据对用户语音的分析，从所述扬声器向用户自动输出所述听觉刺激语音信号，以便使所述听觉刺激语音信号与用户的语音基本上同时提供，并且与用户语音的内容不一致，以及其中按照允许用户以基本上正常的语速说话的方式来传送所述听觉刺激语音信号。

36.如权利要求35所述的装置，其特征在于所述装置在操作中配置用于通过监测所述麦克风及所述信号处理器接收的信号来识别用户开始和终止的语音产生，以及其中所述装置配置用于在用户说话时间歇地输出所述听觉刺激语音信号。

37.如权利要求32所述的装置，其特征在于所述装置配置用于与用户的语音同时地提供听觉刺激语音信号，所述听觉刺激语音信号与用户的同期语音无关且不一致、并按照允许用户以基本上正常的语速说话的方式来提供。

38.如权利要求37所述的装置，其特征在于所述听觉刺激语音信号在用户说话时基本上连续地提供。

39.如权利要求37所述的装置，其特征在于所述听觉刺激语音信号在用户说话时间歇地提供。

40.如权利要求32所述的装置，其特征在于所述装置还包括在操作上与所述处理器及所述麦克风相关的检测器，所述检测器配置用来检测实际口吃事件的开始或实际的口吃事件，以及其中在操作中，在识别到用户方面将出现或实际口吃事件的开始时，所述装置提供所述听觉刺激语音信号。

41.如权利要求32所述的装置，其特征在于所述听觉刺激第二语音信号包括多个不同的口述语音信号，其中每一个都具有不同的延长话音表示音，以及其中所述多个不同的第二信号配置为在适当时间向用户连续输出。

42.如权利要求41所述的装置，其特征在于将所述多个声音输出给用户，使它们在时间上是分离的。

43.如权利要求32所述的装置，其特征在于所述装置配置了用户激活开关，它允许所述装置在患者说话之前或者在时间上接近患者说话时提供所述听觉刺激语音信号。

44.如权利要求32所述的装置，其特征在于所述听觉刺激语音信号包括至少一个口述延长的话音表示音。

45.如权利要求44所述的装置，其特征在于所述至少一个延长的话音表示音中的每一个均保持在基本稳定状态听觉范围之内至少5秒。

46.如权利要求44所述的装置，其特征在于所述听觉刺激语音信号包含保持在基本稳定状态听觉范围之内至少5秒的稳定状态元音音。

47.如权利要求44所述的装置，其特征在于所述听觉刺激语音信号包含保持在基本稳定状态听觉范围之内至少5秒的稳定状态辅音音。

48.如权利要求44所述的装置，其特征在于所述第二语音信号包括多个延长的口述话音表示音，其中至少包括下列之一：(a)持续元音串音，(b)持续单辅音音，以及(c)持续单元音音。

49.如权利要求32所述的装置，其特征在于所述第二语音信号包括多个不同的语音表示音，其中的每一个都具有至少约10秒长的持续可听时长。

50.如权利要求32所述的装置，其特征在于所述装置配置为便携式，以及其中在使用中，所述扬声器经过尺寸设计及配置，用于放置在接近用户耳朵的位置，使所述语音信号至少输入用户的一个耳朵。

51.如权利要求32所述的装置，其特征在于所述扬声器在操作中与用户进行听觉通信，但远离用户而放置，使所述语音信号从所述装置中的所述扬声器从远离患者的位置输出，然后在患者说话时在进入患者耳朵之前在空气中传送超过大约3英寸的距离。

52.如权利要求32所述的装置，其特征在于所述装置结合在电话的机身中。

53.如权利要求32所述的装置，其特征在于所述听觉刺激语音信号包括口吃的语音信号。

54.如权利要求32所述的装置，其特征在于所述听觉刺激语音信号包括正常流利的语音信号。

54.如权利要求32所述的装置，其特征在于所述装置配置为OTE、BTE及ITE装置之一。

56.如权利要求32所述的装置，其特征在于所述音频存储媒体是光盘。

57.如权利要求32所述的装置，其特征在于所述音频存储媒体包括DSP。

58.如权利要求32所述的装置，其特征在于所述装置结合到便携式手持装置、手写工具、通用计算机、无线通信装置以及电话之一中。

59.如权利要求32所述的装置，其特征在于所述装置配置用来作为带夹、手表、帽子、领夹、上衣夹、眼镜架以及别针之一佩带。

60.如权利要求32所述的装置，其特征在于还包括遥控装置，配置用来激活所述听觉语音信号的输出。

61.一种用于提高口吃者流畅性的产品，包括音频存储媒体，其中包含外部生成的第二口述语音信号，其中所述第二口述语音信号包含由使用所述产品之外的某个人所生成的至少一个延长的口述话音表示音，以提高其说话流畅性，其特征在于在操作中，所述口述语音信号适合作为听觉刺激传送给用户，以提高口吃者的流畅性。