CN113226454A

CN113226454A - 利用听觉假体所使用的预测和标识技术

Info

Publication number: CN113226454A
Application number: CN202080007174.4A
Authority: CN
Inventors: P·M·卡特; A·赫斯巴克; R·B·墨菲; K·奥普林杰
Original assignee: Cochlear Ltd
Current assignee: Cochlear Ltd
Priority date: 2019-06-24
Filing date: 2020-06-24
Publication date: 2021-08-06
Also published as: US20220076663A1; WO2020261148A1

Abstract

一种方法，包括：接收包括语音数据的信号，处理所接收的信号以标识和/或预测语音数据中的一个或多个词语，以及基于所接收的信号唤起听觉感知，其中被唤起的听觉感知包括基于对一个或多个词语的标识和/或预测的一个或多个经修改词语。

Description

利用听觉假体所使用的预测和标识技术

相关申请的交叉引用

本申请要求2019年6月24日提交的、题为“PREDICTION AND IDENTIFICATIONTECHNIQUES USED WITH A HEARING PROSTHESIS”的美国临时申请第62/865,536号的优先权，该申请的发明人为澳大利亚麦格理大学的保罗·迈克尔·卡特，该申请的全部内容通过引用整体并入本文。

背景技术

听觉损失可能由许多不同的原因引起，通常有两种类型：传导性和感觉神经性。感觉神经性听觉损失是由于耳蜗中的毛细胞缺失或破坏，毛细胞将声音信号转换成神经脉冲。市场上可以买到各种听觉假体，为患有感觉神经性听觉损失的人提供感知声音的能力。听觉假体的一个示例是耳蜗植入物。当向耳蜗中的毛细胞提供声音的正常机械通路受到阻碍(例如听小骨链或耳道受损)时，就会发生传导性听觉损失。患有传导性听觉损失的人可能会保留某种形式的残余听觉，因为耳蜗中的毛细胞可能保持完好无损。

患有听觉损失的人通常会佩戴声学助听器。传统助听器依靠空气传导原理将声音信号传输到耳蜗。具体地，助听器通常使用位于接受者耳道内或外耳上的装置来放大接受者外耳接收的声音。该放大的声音到达耳蜗，引起外淋巴液运动并刺激听觉神经。传导性听觉损失的病例通常借助于骨传导助听器来治疗。与传统的助听器不同，这些设备使用耦接到颅骨的机械致动器来施加放大的声音。与主要依靠空气传导原理的助听器不同，某些类型的通常称为耳蜗植入物的听觉假体将接收到的声音转换成电刺激。电刺激施加于耳蜗，使得感知到接收的声音。许多设备(例如与接受者对接的医疗设备)具有结构特征和/或功能特征，其中针对个体接受者调整这些特征具有实用价值。对与接受者对接或由接受者使用的设备进行特制或定制或进行调整以适应接受者的特定需要或特定需求或特定特征的过程通常称为适配。安装到个体接受者身上具有实用价值的一种医疗设备是上述耳蜗植入物。也就是说，还存在其他类型的医疗设备(如其他类型的听觉假体)，为接受者安装这些设备同样具有实用价值。

发明内容

在示例实施例中，提供了一种方法，包括接收包括语音数据的信号，处理接收的信号以标识和/或预测语音数据中的一个或多个词语，以及基于所接收的信号唤起听觉感知，其中被唤起的听觉感知包括基于对一个或多个词语的标识和/或预测的一个或多个经修改词语。

在示例实施例中，提供了一种方法，包括接收包括语音数据的信号，处理接收的信号以标识和/或预测语音数据中的一个或多个词语，以及基于所接收的信号唤起听觉感知，其中被唤起的听觉感知是相对于在没有标识和/或预测的情形下将是的情况不同的听觉感知。

在示例实施例中，提供了一种系统，包括：听觉假体，该听觉假体包括声音捕获装置和处理系统，其中听觉假体被配置为转换由系统捕获的声音，并且利用处理系统基于所捕获的声音来处理信号，并且基于处理系统基于信号的输出唤起听觉感知，其中系统包括声音预测和/或词语标识功能，使得系统被配置为预测由声音捕获装置捕获的声音。

附图说明

以下将参照附图来描述实施例，其中：

图1是示例听觉假体的透视图，其中本文详述的至少一些教导适用于该听觉假体；

图2A和2B示出了一种包括听觉假体和便携式手持设备形式的远程设备的示例系统；

图3示出了示例实施例的功能框图；

图4-6示出了示例方法的示例流程图；

图7示出了示例实施例的功能框图；

图8示出了示例方法的示例流程图；

图9示出了根据示例实施例的示例系统的示例功能示意图；以及

图10示出了根据示例实施例的示例系统的另一示例功能示意图。

具体实施方式

图1是植入接受者耳内的耳蜗植入物(称为耳蜗植入物100)的透视图，本文详述的一些实施例和/或其变型适用于该耳蜗植入物。耳蜗植入物100是系统10的一部分，在一些实施例中，系统可以包括外部部件，下文中将对此进行详述。此外，应注意，本文详述的教导也适用于其他类型的听觉假体，例如仅作为示例而非限制，骨传导设备(经皮、主动经皮和/或被动经皮)、直接声学耳蜗刺激器、中耳植入物和传统助听器等。实际上，应当注意，本文详述的教导也适用于所谓的多模式设备。在示例实施例中，这些多模式设备向接受者施加电刺激和声刺激。在示例实施例中，这些多模式设备经由电听觉和骨传导听觉唤起听觉感知。因此，本文中关于这些类型的听觉假体之一的任何公开内容对应于这些类型的听觉假体中的另一种或用于该目的的任何医疗设备的公开内容，除非另有说明，或者除非其公开内容与基于当前技术状态的给定设备不兼容。因此，在至少一些实施例中，本文详述的教导可应用于为接受者、患者或其他用户提供广泛治疗益处的部分可植入和/或完全可植入医疗设备，包括具有植入式麦克风的听觉植入物、听觉大脑刺激器、视觉假体(例如仿生眼睛)、传感器等。

鉴于以上所述，应理解，本文详述的至少一些实施例和/或其变型涉及身体穿戴式感觉补偿医疗设备(例如，图1的听觉假体，其在即使无自然听觉能力的情况下也会补偿听觉，例如由于先前自然听觉能力退化或例如从出生开始便无任何自然听觉能力)。应注意，一些感觉补偿医疗设备的至少一些示例实施例涉及如下设备，例如在保留有一些自然听觉能力的情况下补偿听觉的传统助听器，以及适用于具有一些自然视觉能力的接受者和不具有自然视觉能力的接受者的视觉假体。因此，本文详述的教导适用于任何类型的感觉补偿医疗设备，且能够以实用方式在这些感觉补偿医疗设备中使用。就此而言，“感觉补偿医疗设备”一词是指用于为接受者提供感觉的任何设备，而不管适用的自然感觉是仅仅部分受损还是完全受损，或者实际上从未存在过。

接受者具有外耳101、中耳105和内耳107。下面将描述外耳101、中耳105和内耳107的部件，接着描述耳蜗植入物100。

在功能齐全的耳朵中，外耳101包括耳廓110和耳道102。声压或声波103由耳廓110收集并被引导进入并穿过耳道102。鼓膜104跨越耳道102的远端，其响应于声波103而振动。这种振动通过中耳105的三块骨头(统称为听小骨106，包括锤骨108、砧骨109和镫骨111)耦合到卵圆窗或椭圆窗112。中耳105的骨头108、109和111用于过滤和放大声波103，使得卵圆窗112响应于鼓膜104的振动而活动连接或振动。这种振动使耳蜗140内的外淋巴液形成流体运动波。这种流体运动进而激活耳蜗140内部的微小毛细胞(未示出)。毛细胞激活使得生成适当的神经脉冲，神经脉冲通过螺旋神经节细胞(未示出)和听觉神经114传递到大脑(也未示出)，在大脑处被感知为声音。

如所示的，耳蜗植入物100包括一个或多个暂时或永久植入接受者中的部件。在图1中，耳蜗植入物100示为具有外部设备142，其(连同耳蜗植入物100)是系统10的一部分，如下所述，其被配置为向耳蜗植入物提供电力，其中植入的耳蜗植入物包括电池，该电池由外部设备142提供的电力充电。

在图1的说明性布置中，外部设备142可以包括设置在耳后(BTE)单元126中的电源(未示出)。外部设备142还包括经皮能量传递链路(称为外部能量传递组件)的部件。经皮能量传递链路用于向耳蜗植入物100传递电力和/或数据。多种类型的能量传递，例如红外(IR)、电磁、电容和电感传递，都可以用于将电力和/或数据从外部设备142传递到耳蜗植入物100。在图1的说明性实施例中，外部能量传递组件包括外部线圈130，其形成感应射频(RF)通信链路的一部分。外部线圈130通常是由多匝电绝缘单股或多股铂或金线组成的线天线线圈。外部设备142还包括位于外部线圈130的线匝内的磁体(未示出)。应理解，图1中所示的外部设备仅仅是说明性的，实施例可以使用其他外部设备。

耳蜗植入物100包括内部能量传递组件132，该内部能量传递组件可以被定位在邻近接受者耳廓110的颞骨的凹部中。如下文详述，内部能量传递组件132是经皮能量传递链路的部件，并且从外部设备142接收电力和/或数据。在该说明性实施例中，能量传递链路包括感应RF链路，内部能量传递组件132包括初级内部线圈136。内部线圈136通常是由多匝电绝缘单股或多股铂或金线组成的线天线线圈。

耳蜗植入物100还包括主可植入部件120和细长电极组件118。在一些实施例中，内部能量传递组件132和主可植入部件120密封在生物相容性外壳内。在一些实施例中，主可植入部件120包括可植入麦克风组件(未示出)和声音处理单元(未示出)，以将内部能量传递组件132中的可植入麦克风接收的声音信号转换成数据信号。也就是说，在一些备选实施例中，可植入麦克风组件可以位于单独的可植入部件(例如，自身具有外壳的组件等)中，该单独的可植入部件与主可植入部件120进行信号通信(例如，通过经由单独的可植入部件和主可植入部件120之间的导线等)。在至少一些实施例中，本文详述的教导和/或其变型可用于任何类型的可植入麦克风装置。

主可植入部件120还包括刺激器单元(也未示出)，该刺激器单元基于数据信号生成电刺激信号。电刺激信号经由细长电极组件118传递给接受者。

细长电极组件118的近端连接到主可植入部件120，远端植入耳蜗140内。电极组件118通过乳突骨119从主可植入部件120延伸至耳蜗140。在一些实施例中，电极组件118可以至少植入基底区域116中，并且有时可进一步植入。例如，电极组件118可以向耳蜗140的顶端(称为耳蜗顶端134)延伸。在某些情况下，电极组件118可以经由底转122插入耳蜗140。在其他情况下，可以通过圆窗121、卵圆窗112、岬123或通过耳蜗140的顶周147形成底转。

电极组件118包括沿其长度布置的纵向对齐且向远侧延伸的电极148的阵列146。如上所述，刺激器单元生成刺激信号，该刺激信号由电极148施加到耳蜗140，从而刺激听觉神经114。

图2A描绘了根据示例实施例的示例系统210，包括听觉假体100和便携式身体携带设备(例如如图2A所示的便携式手持设备(智能手机)、手表、袖珍设备、任何身体携带设备)240，该听觉假体100在示例实施例中对应于上文详述的耳蜗植入物100，该便携式身体携带设备240可以是具有显示器242的移动计算机的形式。该系统包括便携式手持设备240和听觉假体100之间的无线链路230(在一些实施例中，该链路可以是有线的)。在示例实施例中，听觉假体100是植入接受者99中的植入物(在功能上由图2A中的方框100的虚线表示)。再次注意，虽然将就耳蜗植入物的使用来描述本文详述的实施例，但是本文的教导可以适用于其他类型的假体。

在示例实施例中，系统210被配置为使得听觉假体100和便携式手持设备240具有共生关系。在示例实施例中，共生关系是显示与听觉假体100的一个或多个功能相关的数据和/或影响整个系统的操作的能力，并且至少在一些情况下，是控制该一个或多个功能和/或影响整个系统的操作的能力，以下将更详细地对此进行描述。在示例实施例中，这可以通过手持设备240经由无线链路230(但在其他示例实施例中，可以利用其他类型的链路，例如有线链路)从听觉假体100接收数据的能力来实现。如下面还将详述，这可以通过与地理上远程的设备通信来实现，该设备经由链路(例如仅作为示例而非限制，互联网连接或手机连接)与听觉假体100和/或便携式手持设备240通信。在一些这样的示例实施例中，系统210还可以包括地理上远程的设备。同样，下面将更详细地描述这方面的其他示例。

如上所述，在示例实施例中，便携式手持设备240包括移动计算机和显示器242。在示例实施例中，显示器242是触摸屏显示器。在示例实施例中，便携式手持设备240还具有便携式蜂窝电话的功能。就此而言，设备240可以是(仅作为示例而非限制)智能手机，因为通常使用该词语。也就是说，在示例实施例中，便携式手持设备240包括智能手机，同样是因为通常使用该词语。

词语“移动计算机”需要被配置为能够进行人机交互的设备，其中在正常使用期间期望将计算机从固定位置运走。同样，在示例实施例中，便携式手持设备240是智能手机，因为通常使用该词语。然而，在其他实施例中，可以利用不太复杂(或更复杂)的移动计算设备来实现本文详述的教导和/或其变型。在至少一些实施例中，可以使用能够实现本文详述的教导和/或其变型的任何设备、系统和/或方法。(如下文将详述，在一些情况下，设备240不是移动计算机，而是远程设备(远离听觉假体100)。下文将描述这些实施例中的部分实施例)。

在示例实施例中，便携式手持设备240被配置为从听觉假体接收数据，并基于所接收的数据在显示器上呈现来自多个不同界面显示之中的界面显示。示例实施例有时将根据从听觉假体100接收的数据来描述。然而，应注意，也适用于从手持设备240发送到听觉假体的数据的任何公开内容也包含在此公开内容中，除非另有说明或者与相关技术不兼容(反之亦然)。

注意，在一些实施例中，系统210被配置为使得耳蜗植入物100和便携式设备240彼此具有关系。仅作为示例而非限制，在示例实施例中，该关系是设备240经由无线链路230用作假体100的远程麦克风的能力。因此，设备240可以是远程麦克风。也就是说，在备选实施例中，设备240是独立的记录/声音捕捉设备。在另一个示例实施例中，设备240为整个系统增加了处理能力和/或软件。如下文将详述，实施例包括词语产生和/或声音预测和/或词语标识功能，该功能可以驻留在假体100和/或设备240上。设备240可以与假体100一起工作，以实现本文的目标。

注意，在至少一些示例实施例中，设备240对应于自2018年6月6日起可在美国商购的Apple Watch^TM系列1或系列2。在示例实施例中，设备240对应于自2018年6月6日起可在美国商购的三星Galaxy Gear^TM Gear 2。该设备编程和被配置为与假体通信和/或发挥作用以实现本文详述的教导。

在示例实施例中，电信基础设施可以与听觉假体100和/或设备240通信。仅作为示例而非限制，拾音线圈249(telecoil)或一些其他通信系统(蓝牙等)用于与假体和/或远程设备通信。图2B描绘了示例准功能示意图，其描绘了分别通过链路277和279在外部通信系统249(例如，拾音线圈)和听觉假体100和/或手持设备240之间进行的通信(注意，图2B描绘了听觉假体100和外部音频源249之间以及手持设备和外部音频源249之间的双向通信——在备选实施例中，通信仅是单向的(例如，从外部音频源249到相应设备))。

简单地说，在示例实施例中，如下所述，耳蜗植入物100和/或设备240用于捕获接受者和/或与接受者说话的人的语音/声音。此外，如下所述，植入物100和/或设备240可用于记录数据，该数据可用于改进以下描述的词语预测/词语标识/声音预测功能。

如下文将详述，元件249可表示与可实现本文一些教导的远程服务器等通信的门户。具体而言，仅作为示例而非限制，经由与元件249的上述链路，捕获的语音和/或与之相关联的数据以及由系统210或仅由植入物100记录的数据可被传送到可用于实现本文的一些教导的远程系统。例如，元件249可使得能够与下文详述的系统处理套件(包括推荐引擎等，如下文将详述)通信，并且设备240可以处于系统的输入、输出和/或输入/输出套件中。

作为示例而非限制，一些实施例涉及智能话音识别，以增强一些听觉假体的用户性能。一些实施例利用了识别技术，这些识别技术使得能够标识例如由听觉假体捕获的、传入的语音中正在说的词语，并且假体在将其呈现给接受者之前对其进行“清理”。在一些实施例中，这可以包括呈现无噪声(或带有任何实用背景噪声)的所捕获的语音，呈现无口音或带有用户熟悉口音的捕获语音(例如，将澳大利亚口音添加到从美国或英国说话者捕获的语音中，或者从用于唤起美国人听觉的语音中去掉澳大利亚口音，或者为非英语母语者添加英国口音，或者至少是英国语言特征，因为许多此类人学的是“英国英语”而非“美国英语”等)和/或相对于其它音量以给定音量向接受者呈现语音，和/或以任何实用方式调整其他参数，这些参数可以提高语音识别性能或者在语音标识性能方面具有实用价值(可以是使收听任务不那么费力)。一些实施例包括根据需要将捕获的语音从一种语言翻译成另一种语言和/或以更简单或更容易理解的形式提供给定的句子或段落或短语。

一些实施例包括在听觉仪器中实时进行语音识别。

图3示出了示例实施例的功能图。在本文，对标准听觉假体进行了修改，其中标准信号处理路径可以包括标准声音/语音处理器，诸如耳蜗植入物或其他类型的听觉假体中可商购的那些。(注意，本文的教导适用于其他类型的感觉假体，例如视网膜植入物，其中信号处理路径将包括例如光处理器。因此，本文中关于听觉假体和/或声音处理器和/或声音处理路径的任何公开内容对应于备选实施例的公开内容，在备选实施例中，听觉假体是视觉假体，例如视网膜植入物，其包括例如光处理器，并且本文中关于声音处理路径下的声音处理器的任何公开内容对应于光处理路径的备选实施例。)

在该示例实施例中，听觉假体中包括可变延迟设备，并且可变延迟设备被配置为：对关于流过听觉仪器的信号流的标准信号处理路径的输出，施加可变延迟。在示例实施例中，可变延迟设备可以是存储器单元，其存储从标准信号处理路径接收的输入，并且根据下文将详述的时间帧，允许在此后不久取回这些输入。可变延迟可以是在假体中使用的声音处理器和/或信号处理器的一部分，或者是根据至少一些示例实施例，能够使用延迟的任何系统。可以使用延迟电路。在该示例实施例中，用户可以控制延迟量，例如通过对假体的输入来控制延迟量，无论该输入是对应于时间帧的输入还是指示接受者最终愿望的输入，其中假体基于该输入确定延迟应该是多少。如所看到的，听觉假体被配置为基于来自信号识别和分析块的输入来增强信号。以下将更详细地对此进行描述，但是在示例实施例中，可以是包括用于进行语音识别和/或声音识别等的软件的芯片或处理器或计算设备。其他细节将在下文进行描述。在任何情况下，在示例实施例中，信号识别和分析块可以用于确定延迟量，并且同样根据下文的教导，可以向可变延迟块提供控制信号以调整延迟和/或消除延迟。信号增强可以对应于本文关于如何修改基于所捕获声音的信号或者如何用另一个信号替换该信号的任何动作，以下将更详细地对此进行描述。数模转换是一个可选的示例，并且注意，本文中的一些实施例可以针对纯模拟系统。实际上，数字存储单元以及与其相关联的麦克风和模数转换器也是可选的(未示出，但是符合标记“数字化”)。数字存储单元可以替代地是模拟存储单元，并且在一些实施例中在偶然情况下也可以不存在。在示例实施例中，存储单元可以是存储器单元或包括晶体管等的电路或者一组芯片等。

继续参考图3的实施例，信号增强的输出(包括改变信号和用新信号替换信号，以下将更详细地对此进行描述)最终用于向用户/接受者提供输出。在示例实施例中，这可以是经由耳蜗植入物电极阵列施加的电刺激。在另一示例实施例中，这可以是例如由骨传导设备输出的振动输出。就此而言，听觉仪器/听觉假体可以是主动经皮骨传导设备、被动经皮骨传导设备和/或经皮骨传导设备。在示例实施例中，输出可以是来自中耳植入设备等的机械输出，和/或可以是进入位于耳蜗内部的设备以对耳蜗进行机械刺激的机械输出。在示例实施例中，信号输出可以改为提供给传统助听器的接收器，例如在耳式助听器或包括位于耳道内的扬声器的助听器中。此外，如上所述，输出可以是到视网膜植入设备的输出。关键是，除非另有说明，否则本文中关于给定假体的特征的任何公开内容(该假体具有与本文详述的不同类型假体类似的特征)对应于这种假体的备选实施例的公开内容。

在示例实施例中，图3的信号识别和分析块可以是词语标识和/或词语预测设备。在一个示例实施例中，图3的信号识别和分析块可以对应于处理器或计算机芯片，或者对应于被配置为标识和/或预测词语的计算设备，和/或可以是组件，诸如正与具有与词语识别和/或词语预测相关联的所述功能的远程设备进行信号通信，或者可以设置成之与进行信号通信的输入和/或输出设备。

应注意，虽然本文详述的许多实施例涉及导致或需要或利用处理延迟的处理，但是注意，可以在不处理延迟的情况下实现其他实施例，和/或在以下情况下在不处理延迟的情况下实现其他实施例，即统计平均接受者(例如，出生并居住在美国、加拿大、澳大利亚、欧盟国家、英国、法国、德国、日本、意大利、澳大利亚、新西兰或者印度且年龄在18岁至45岁之间的50百分位男性或女性人因工程学——在下文中，任何对统计平均接受者的提及均对应于出生并居住在这些国家之一的百分位男性或女性人因工程学)将会注意到此，且所有其他条件均相同。在无处理延迟地实现的至少一些示例实施例中，预测和/或标识可以完全基于现有的声音流。在以延迟实现的实施例中，仅作为示例而非限制，或者在至少相对可注意的延迟地实现的实施例中，可以基于过去和/或未来的声音进行预测(除非另有说明，否则本文的声音的任何公开对应于词语的公开，反之亦然)，因此预测更准确。

简而言之，图4示出了示例方法(方法400)的示例流程图，该方法包括方法动作410，动作410包括，接收包括语音数据的信号。在示例实施例中，从图3的麦克风接收信号。在示例实施例中，该信号是从麦克风接收的信号，尽管该信号可以是基于来自麦克风的信号的不同信号(例如，可以是关于声音处理器的预处理和/或输出的情况，这取决于本文如何实现教导，或者关于远程处理实施例，其中例如，听觉假体与位于远程的设备通信，并且来自麦克风的信号用于产成另一个信号，该另一个信号是最终被分析或评估的信号，尽管所述相同的信号可以传输到远程组件)。此外，可以从另一个设备(例如USB端口等)接收信号，其中例如，语音数据不是来自现场语音，而是可以是预先录制的语音，和/或在例如语音源自远程位置并以电子方式传输给接受者的情况下，例如电视广播或无线电广播等，其中例如，假体与传输或提供语音数据的输出设备进行有线通信和/或信号通信(例如，进而旁路麦克风)。只要信号包括语音数据，方法动作410就覆盖该信号。

方法400还包括方法动作420，其包括：处理所接收的信号以标识和/或预测语音数据中的一个或多个词语。这可以由被配置为这样做的任何处理器来完成，例如处理器和/或计算机和/或计算机芯片和/或人工智能设备和/或经过训练的专家系统等。在示例实施例中，利用计算设备来执行动作420，该计算设备包括用于语音至文本应用和/或拼写校正应用等的词语标识/词语识别软件(例如，当一个人对着智能手机说话并且智能手机将捕获的语音转换成文本时智能手机上使用的软件，或者Dragon^TM软件或其任何变型)。应进一步注意，本文公开的方法动作还可以包括利用从过去和/或从用户体验中“学习”的系统，同样，诸如Dragon^TM软件系统等。此外，如上所述，系统还可以包括词语预测技术。在示例实施例中，用于执行方法动作420的设备系统和/或方法可以是包括用于预测词语的软件(诸如在网络浏览器和/或智能手机中使用的软件等)的计算设备。在至少一些示例实施例中，可以使用能够实现词语标识和/或词语标识和/或词语预测的任何设备、系统和/或方法。

方法400还包括方法动作430，其包括：基于接收的信号唤起听觉感知，其中被唤起的听觉感知包括基于对一个或多个词语的标识和/或预测的一个或多个经修改词语。

简而言之，应注意，在一些实施例中，方法400可以完全在自含式听觉假体(例如耳蜗植入物或本文详述的任何其他听觉假体)中执行。还应注意，一些实施例包括如下的方法，其中语音数据和与语音相关联的特征被与光相关联的特征所替代，并且被唤起的感知为视觉感知，该视觉感知包括基于标识和/或预测的一个或多个经修改的视觉或图像，前提是这是本领域能够实现的。

因此，在一个示例实施例中，方法动作420的处理包括：利用语音识别软件来标识一个或多个词语。

实施例可以包括利用词语预测技术，这与web浏览器、智能手机等中经常使用的词语补全技术有所区别，其中当用户开始键入词语时，浏览器或设备提供用户可能试图键入的词语。词语预测技术通过“预测”接下来可能出现在语音中的词语，进一步完善了补全技术。该预测基于正在进行的语音分析(通过AI或其他技术——实施例包括听觉假体中包含的机载人工智能设备和系统，和/或人工智能系统和设备位于远程的实施例，这些人工智能系统和设备可用于实现本文公开的词语识别和/或词语预测技术)。通过标识和/或分析语音中的词语，可以预测下一个词语或多个词语。

在一些实施例中，本文的教导可以被用于以相对较高水平的确定性预测下一个词语将是“n”个词语中的一个词语。本文详述的教导的实施例可以以不同的方式做出响应。在一些实施例中，选择具有最高确定性的词语。在其他实施例中，将词语组合，使得每个频率窗口(bin)的预测水平反映例如平均预测水平。其他实施例应用“最小公分母”方法，使得例如仅将预测词语的重叠区域视为预测词语的水平。

在一些实施例中，由于系统延迟，无法进行下一个词语的预测。在这样的实施例中，一些实施例，在待由假体处理的下一个词语之后和/或接下来的2或3或4或5或6或7个词语或这之间的任何值或值范围(例如，3至5、2至6等，增量为1)之后，以足够的精度预测一个或多个词语(例如，2或3或4或5或6或7或8个或更多词语或这之间的任何值或值范围，增量为1)，以提供信号处理益处。在一些实施例中，预测包括或限于“进一步的语音”，音调语言的语音、音乐等。在一些实施例中，一些预测基于对先前词语的标识。在一些情况下，例如，当下一个或后续词语的预测不够确定时，这些其他预测仍然提供降噪或其他信号处理益处(例如，更新/维护场景分类器，通过应用程序向接受者显示过去的词语和可能的下一个词语，等等)。也就是说，即使预测不足以确定例如用某个其他词语替换某个词语，该预测仍然可以用于其他非基于理解的实现方式。

在一些实施例中，使用语音/词语标识/预测技术来相对于原本情况有效地改变由语音数据产生的听觉感知。因此，在方法400的示例实施例中，包括以下中的至少一项：(i)所接收的信号被修改以产生相对于在没有修改的情形下将是的情况听起来不同的词语，或者(ii)提供给唤起听觉感知的设备的新信号被产生，该新信号导致如下词语的产生，该词语相对于在该信号被设备使用的情形下将是的情况听起来不同。关于第一种场景，这可以包括从信号中去除噪声、或者相对于其他频率来增加或减少某些频率的幅度、平滑频率、增加锐度等。在第二种场景下，会产生新信号。仅作为示例而非限制，例如，所接收的信号包括短语“是或不是(to be or not to be)”。可以保留信号中包含“是或”的部分，但是可以将基于词语“不”的预先记录/预存储数据的新信号插进/插入到语音处理流中，然后信号可以恢复到基础信号。下文将描述其一些附加特征。简而言之，应注意本文的概念是假体或其他系统可以确定词语“不”应该在短语“是或”和“是”之间。基于这样的确定，还可以确定是否可以修改基础信号，或者以其未修改的形式是否会产生词语“不”的期望听觉感知。如果确定其不会提供期望的听觉感知，则该信号将被更有可能提供期望感知的新信号代替。也就是说，相同的操作原理可以用于简单地修改信号，以产生听起来不同于原本情况的词语。构思是确保或提高听觉感知是“不”一词而非其他词的可能性。利用本文的词语预测和/或词语标识教导，可以更好地实现这一点。

实际上，在一些示例实施例中，词语识别系统可以替换整个短语或修改整个信号，以提高听觉感知是“是或不是”的可能性。就此而言，该系统可以具有已知或常用短语的目录，系统可以依靠该目录来标识和/或预测词语。此外，标识和/或预测语音数据中的一个或多个词语的动作可以包括标识和/或预测语音数据中的一个或多个句子，或者两个或三个或四个或五个或六个或七个或八个或九个或10个或11个或12个或13个或14个或15个词语，或者任何值或值范围，增量为1，(进行一次，而非例如进行几分钟，其将是简单地计算系统操作的次数)。

为了清楚起见，在至少一些示例实施例中，可以利用能够改进基于词语标识和/或词语预测唤起的听觉感知的任何信号处理方案或词语补偿或词语替换方案，无论这是降噪、增益幅度修改，还是用可以人工生成的全新信号替换信号。此外，如将在下文解释，在一些示例实施例中，接受者对某些词语有困难，可以用可能被认为“无意义”的其他词语或其他声音来替换一些词语，除了该词语将是接受者相对于其他词语更容易标识的词语。就此而言，由于听觉假体的局限性，接受者可能难以识别或标识某些词语，尤其是当相对于其他词语说出这些词语时。例如，“四十”这个词和“三十”这个词有时听起来一样，或者很难区分，这取决于人们对这个词的理解。就此而言，耳蜗植入物唤起听觉感知的能力被限制在特定的频率，这种限制可能会增加区分这两个词的难度。利用本文中的词语识别和/或词语产生技术，词语“三十”可以代之以“3”和“零”或“ytriht”(thirty反向拼写)，其中“四十”总是“四十”。目的是提高这种情况下的理解能力。除了使用假体的人，没有人会知道听觉感知的“尴尬”。但是如果对词语的修改使得更好理解，这便具有实用价值。

如上所述，本文详述的教导可以用于以各种方式修改听觉感知。就此而言，在示例实施例中，信号被修改以产生具有相对于在没有修改的情形下将是的情况不同的口音的词语，和/或提供给唤起听觉感知的设备的新信号被产生，该新信号导致如下词语的产生，该词语具有相对于信号被设备使用的情形下将是的情况不同的口音。

同样，在至少一些示例实施例中，可以使用相对于改变或调整基于词语识别和/或词语预测产生(相对于以其他方式产生)的听觉感知具有实用价值的任何方案。

考虑到关于加强或改善对原本的理解的实用价值，在一些实施例中，方法动作420处理接收信号的动作在听觉感知被唤起的人(听觉假体的接受者)和生成语音数据的人(例如，与接受者说话的人)进行对话期间实时执行。

根据本文详述的教导的一些实施例，通过利用高度处理能力和大量存储器来利用语音识别设备、系统和方法，在一些实施例中，这些设备、系统和方法均包含在听觉假体中，可以位于与听觉假体进行信号通信的设备(例如，智能手机、智能手表或远程计算机)中，或者作为听觉假体的非身体穿戴式部件(例如，袖珍式或皮带式信号处理器，这一概念已被耳后设备所取代，因为这些年来信号处理器越来越小，耗电量越来越少，——旧的大型机箱可用于支持更大、更耗电的处理器，这些处理器不一定与耳后设备的小型机箱兼容)。

在示例实施例中，本文的教导包括对整个句子或句子的至少一半以上、2/3、3/4、85％或90％(平均(均值、中值和/或模式))进行语音识别或语音预测或与进行之相关的语音识别或语音预测。在一些实施例中，语音识别可以使用对传入音节和/或音素的评估/标识，这些传入音节和/或音素不是随机序列和/或串在一起形成词语和句子，其中一些词语和句子比其他词语和句子更有可能出现。因此，实施例可以利用句子的一部分来为句子的单个词语提供上下文。在语音识别术语中，句子中的其他词语可以增加正确标识任何特定词语的可能性。同样的效果也适用于音节识别和词语识别。实施例可以利用音节作为词语的一部分被说出的事实来增加正确标识的可能性。

在示例实施例中，处理动作与听觉感知中由听觉感知被唤起的人注意到的、相对于在没有处理的情形下将是的情况可注意的延迟相关。相反，在示例实施例中，该处理与听觉假体中由听觉感知被唤起的人注意到的、可注意的延迟不相关。在示例实施例中，延迟是执行方法动作420和/或本文的其他动作的处理的结果。也就是说，在备选实施例中，如上所述，延迟是接受者和/或用户或其他保健专业人员故意造成延迟的结果，以便提高用于实现这种延迟的设备的方法动作的有效性。因此，在这两种情况下，处理与延迟和/或无延迟之间存在相关性。

在示例实施例中，延迟是与在没有标识和/或预测的情形下将是的情况相比的增量。也就是说，在示例实施例中，这是相对于如果利用正常/标准信号处理(例如，信号处理是本领域已知的，例如用于语音处理，而没有本文关于语音标识和/或产生的创新点的教导)来唤起听觉感知的情况而言的，其中所有其他条件均相同。

在示例实施例中，存在0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、34、42、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、58、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、85、90、95、100、120、140、160、180、200、225、250、250、275、300、350、400、450、500、550、600、700、800、900、1000、1250、1500、1750、2000、2250、2500、3000、3500、4000、4500、5000、5500、5500、6000、7000、8000、9000、10000或更多毫秒的延迟，或其间以0.1毫秒为增量的任何值或值范围(例如，30.7到88.4毫秒、707到4444毫秒、804.3毫秒、589.0毫秒等)。

可以引入的上述延迟对于提高语音识别的效用具有实用价值，例如，使得能够在预测句子中的词语或音节之前说出词语或句子的剩余部分。就此而言，在一些情况下，如果在声音路径中引入延迟，或者结合本文的教导使用延迟，以实现或允许改进声音处理，则相对于没有延迟/正常处理时间的情形下将是的情况，声音处理策略可以执行得更好。

这与标准情况相反，因为在听觉仪器中避免了延迟，因为延迟会干扰嘴唇同步，中断对话流，并会分散用户的注意力。实际上，现代耳蜗植入物和助听器声音处理策略和/或其他听觉假体有意避免在麦克风接收的声音和扬声器或电极阵列输出的声音之间引入可注意的延迟。这是因为通常认为，如果这种延迟超过几十毫秒，则用户就能够感觉到视觉和声音之间的时间差，这会分散用户的注意力或使用户烦恼。当听和观察语音时，这就是所谓的“嘴唇同步”问题——语音与讲话者的嘴唇运动不同步。对于听觉受损的人来说，这尤其是一个问题，因为他们通常比普通人更依赖唇读。因此，本领域避免了这种延迟，并努力使这种延迟最小化。相反，本文的教导可以应用于可以通过由本文详细的教导所产成的改进和理解或者改进的听觉体验来抵消延迟的有害影响的情况。

此外，事实上在某些情况下，延迟的危害较小，或者根本没有危害。这可以是在收听播客、广播或任何类型的广播语音时。在电话对话中，引入小延迟(例如小于1秒)也是可以接受的，这样可以获取和/或存储并分析多个音节，以提高词语识别工作的性能。实际上，由延迟引起的中断根据收听情况而变化，并且在任何给定的收听情况下，可以使用一系列不同的延迟来获得最实用的语音识别性能。

例如，对于广播视频(声音和图片)来说，如果广播系统知道听觉仪器引入的延迟量，则其可以通过将图片的广播延迟与音频处理中的延迟相同的量来进行补偿，以便声音和图片同步。因此，实施例从仅适用于听觉假体声音捕获场景扩展到将基于本文详述的教导而唤起的听觉感知与其他媒体同步的整体系统。仅作为示例而非限制，可以有一种包括视频和音频系统的系统，例如电视或视频会议系统，其中还在视频中内置了延迟，以使听觉感知与视频同步。该系统可以与听觉假体通信。在至少一些示例实施例中，如果广播设备和听觉仪器之间可以通信，则在一些情况下，可能使音频和视频数据流的延迟匹配以使二者同步。换句话说，可以故意延迟视觉数据流，以允许音频处理中出出现所需的延迟，从而提高声音识别质量。

此外，系统可以具有语音识别和/或预测特征，并且在一些实施例中，可以包括声音处理特征，其中产生的信号然后被提供给听觉假体，就好像该信号是在假体正常使用期间捕获的正常信号一样。就此而言，除了使用听觉假体来最终唤起听觉感知外，一些实施例与听觉假体完全分离。

由此得出的推论是，虽然上述实施例通常针对听觉假体内的集成声音处理和信号增强系统，但是信号增强可以替代地发生在标准信号处理路径的上游。在上述系统中可能会发生这种情况。就此而言，提供给听觉假体的信号可以是增强的信号，其中提供给听觉假体的声音处理器的“词语”或声音已经被修改或增强。

现代电视的图片和声音之间可以有可变和/或有时手动可调延迟。这通常是考虑到处理数字视频图像的延迟，该延迟通常比处理数字音频的延迟长。然而，原理可以是相同的。事实上，要清楚，一些实施例可以是相对“低水平的技术”。在一些实施例中，可以在电视和馈送之间设置黑盒，该黑盒可以具有存储器和/或延迟电路，并且可以将提供给电视的信号延迟特定时间，但是也可以在将信号提供给电视之前先提供给听觉假体。通过使假体中的延迟与黑盒中的延迟同步，可以减轻与声音相关的延迟相关的任何有害影响。此外，黑盒可以具有用于进行标识和/或词语预测等的处理。在该示例中，在视频信号被输出到电视的同时，黑盒的输出被输出到假体，因为在信号到达听觉假体之前，相对于词语标识，与这种效用值相关联的延迟已经用完。就此而言，关于本文详述的延迟的实用价值发生在听觉假体外部/信号被提供给听觉假体之前。换句话说，并不是听觉假体的操作有延迟(超过正常范围)，而是与听觉假体一起使用的系统的操作有延迟。

因此，实施例包括在接收到的声音和听觉仪器的输出信号之间引入可变延迟(在一些实施例中，最长可达几秒)，其中延迟量可手动或自动调整，以适应不同的收听条件。

一些实施例包括系统、设备和方法，其中系统标识不同的声音环境并自动/基于预定的方案标识实用延迟时间。举例来说，这种标识可以包括标识广播音频(其中可接受相对较长的延迟)、电话对话(其中可接受较短的延迟)、面对面对话(其中延迟尽可能少往往最佳)。

在一些实施例中，这些声音环境的标识是通过用户自己的声音进行的。如果检测到声音(不是用户)并且用户没有说话，则在一些实施例中，自动确定用户正在收听广播信号，并且可以相应地设置延迟。如果另一个声音和用户的声音轮流出现，则可以自动确定很可能正在进行对话，并且相应地设置延迟。在这种情况下，在一些实施例中，使用潜在变量等来确定对话是通过电话还是当面进行的。此外，还可以使用其他检测特征，例如，是否使用了拾音线圈或外部输入，其指示电话对话，因此系统可以自动确定是否检测到这些项目。在其他情况下，电话信号的质量(例如，带宽有限还是很宽，或者可以评估其他频谱特性等)也可以将对话标识为电话对话，而不是面对面的对话。在示例实施方式中，用户能够通过用户输入的命令等来超控自动检测。

由上述得出的推论是，在一些实施例中，对话的类型可以经由接受者输入到有信誉的系统或其他系统中。在示例实施例中，假体可以设置有输入系统，例如按钮，其中接受者可以按下按钮来指示对话的类型。也就是说，接受者可以肯定地将信息输入到假体中，以指示对话的类型。在一些实施例中，输入可以是语音输入。例如，因为听觉假体包括麦克风并且可以捕获接受者的声音，所以在一些实施例中，接受者所做的只是陈述可被假体解释为输入信息的预定的预设短语等，其中假体被配置为识别这是输入而非只是在对话等中做出的陈述。在至少一些示例实施例中，可以使用能够向听觉假体或其它系统提供关于对话类型的信息使得系统能够确定应当实现的延迟类型的任何设备、系统和/或方法。

图5示出了示例方法(方法500)的示例算法，方法500包括方法动作510和520，其分别包括执行上面详述的方法动作410和420。方法500还包括方法动作530，其包括基于所接收的信号唤起听觉感知，其中被唤起的听觉感知是相对于在没有标识的情形下将是的情况不同的听觉感知。本文中，在某些情况下，该方法可以通过仅简单地利用噪声消除或噪声抑制技术或者甚至针对此的波束成形技术来实现。在至少一些实施例中，可以使用会导致听觉感知改变或不同(相对于无标识和/或无产生时的情况)的任何物品。

参考图5和方法500，以及上面详述视频的延迟如何长于当面对话的延迟的实施例，示例实施例包括执行方法500(或方法400，在一些实施例中，或本文详述的任何其他方法)，其中处理与听觉假体中由听觉感知被唤起的人可注意到的、相对于在未进行处理时将是的情况的可注意的延迟相关。该方法还包括评估与所接收的信号有关的整体上下文，确定将引起可注意的延迟的一个或多个延迟参数，以及调整系统使用的处理方案，使得可注意的延迟落在一个或多个参数内。例如，相对于其他算法，可以使用更广泛的词语识别或词语预测算法，例如是否会有更长的延迟。此外，可以运行更多的“故障安全”检查来检查预测/标识是否准确，如果不准确，则运行另一个预测/标识。例如，如果预测或标识的词语是“run(跑)”，且延迟时间有限，则可能无法完全确定该单词是在该单词会被标识为“fun(有趣)”而不是“run(跑)”的上下文中说出的。然而，如果有更多的时间，可以提供更多的上下文。在一个极端的示例中，如果对话是关于一个腿坏了的人，则该方法可以确定这个词不太可能是“run(跑)”。当然，这可能需要更多的数据来确定这一点，因此会有更大的延迟。也就是说，在示例实施例中，例如依赖于人工智能或利用非常强大的处理的实施例中，该系统或方法可以标识语音的整体上下文，并且由于在所表达问题之前已经做出的陈述(例如，我因为生病已经好几天不能出门了，接下来是关于股票市场的数分钟讨论——系统可能会认为生病的人不太可能说出“run(跑)”这个词，等)，而推断出某人不太可能正在谈论跑步。

在示例实施例中，一个或多个参数包括延迟的长度，并且针对基于视频的语音数据的延迟长度长于来自正对用于唤起听觉感知的听觉假体的接受者说话的人的实时语音数据的延迟长度。

图6示出了示例方法600的示例流程图，包括方法动作610，该方法动作610包括执行方法500。方法600还包括方法动作620，该方法动作620包括基于所标识和/或预测的一个或多个词语自动调整正在唤起听觉感知的听觉假体的噪声控制系统。仅作为示例而非限制，这可以是对噪声消除系统进行调整。在示例实施例中，这可以是对波束形成系统等进行调整，使得假体的麦克风朝向说话者聚焦，而不是捕获更多噪声的更全向聚焦。

在一些实施例中，基于词语标识/预测技术，是否以及在多大程度上对假体的操作进行调整，和/或对词语/信号进行修改、对词语/信号进行替换，可以取决于词语预测/标识的确定性水平。例如，如果确定性水平低(当没有足够的数据可用于预测下一个词语时，或者如果存在指示所标识的词语可能不正确/该词语正确的百分比概率的变量时，可能会发生这种情况)，这些技术可能不会对设备进行太多调整(如果有的话)。在这种情况下，设备应该根据标准实践操作，例如根据传统算法实现噪声消除，或者根据不基于词语标识/预测的算法实现波束成形。在一些实施例中，基于本文的教导，听觉假体的操作可以反映在某些部分受到影响/控制的标准技术的组合。例如，词语识别和/或词语预测技术可以用于实现具有较少伪像(artefacts)的非常积极的降噪技术水平，例如在预测/标识具有高置信度的情况下，这与降噪系统正常操作的情况相反。在这种实施例中，预测的词语和积极调整(而非不太积极的调整)的结果之间的相关性可以使得能够使用该结果，而不会引入不希望的人为因素。实际上，就此而言，可以认为信号的替代/替换/改变和/或本文的一些其他教导是噪声消除/降噪的极端形式，例如，在该意义上，如果信号被人工信号完全替换，则新信号可以无噪声/可以是仅包含所需内容(在一些实施例中，可以只是语音)的信号。

在一些实施例中，对于实现足够延迟以扩展到正预测的音节、词语或词语序列的系统，可以测量预测的准确性。这可以通过例如将预测的音节、词语或词语序列与被预测的实际音节、词语或词语序列进行比较来完成，这两者在具有这种延迟的系统中的任何时刻都可用。此外，例如，对于没有足够延迟来扩展到正预测的音节、词语或词语序列的系统，该系统可以通过监视在做出预测之后发出的实际音节、词语或词语序列来确定预测的准确性。在一些实施例中，在上述两种情况下，如果预测话语和实际话语之间的相关性高，则系统将更有可能用预测的话语来替换实际话语。在一些实施例中，除了预测测量的准确性之外，还可以在决定何时以及如何用预测的替代话语来替换话语时使用其他因素。这些要考虑的因素之一的示例是听觉仪器的收听者或接受者的语音感知能力。在接受者的语音感知能力差的情况下，系统将增大其替换全部或部分音节、词语或词语序列的可能性，因为接受者不太可能在无帮助的情况下理解传入的语音。相反，在接受者的语音感知能力良好的情况下，系统不太可能替换全部或部分音节、词语或词语序列，因为接受者更有可能在无系统调整的情况下便能理解传入的语音。在确定用预测话语替换实际话语的可能性时可以考虑的输入的另一个示例，是对用户理解特定的传入语音串(train)的程度的“实时”估计。例如，如果用户正在收听播客、视频广播或类似节目，则可以通过监控用户重放或重复播客、视频广播或类似节目的特定序列的次数来来对此进行估计。然而，如果检测到用户正在与另一个人对话(例如通过电话或当面对话)，则可以通过用户要求说话者重复其说话内容的次数来获得对用户对话困难程度的估计。另一种确定困难程度的方法是通过监控用户调整听觉仪器控制装置的次数。如果用户多次调整控制装置，则应理解，与其调整助听器的次数较少的情况相比，用户更可能难以理解传入的语音。在某些情况下，存在影响系统替换或不替换特定音节、词语或词语序列的可能性的其他变量，例如说话者的口音、传入声音中的混响水平、传入声音的频谱等等。还应理解，用预测话语替换特定话语的可能性可以是动态的，因为影响该可能性的上述和其他变量中的一些或全部变量可能随时间而变化。随着这些变量的变化，上述替换音节、词语或序列或词语的可能性也会变化。所述可能性对上述变量变化的响应速度是另一个参数，该参数可由实现音节、词语或词语序列替换的系统控制。实施例包括可以检测一个或多个或所有上述事件并且评估检测到的数据以做出关于是否实施本文的一个或多个教导的判断，然后这样做或者指示另一个系统/控制另一个系统这样做的设备、系统和/或方法。

此外，在一些实施例中，存在动作：基于所标识和/或所预测的一个或多个词语自动调整进行唤起听觉感知的听觉假体的音量和/或增益。这取代或补偿了上述调整/操作。

在示例实施例中，信号被修改以产生如下词语，该词语是相对于在没有修改的情形下将是的情况将可能由接受者感知的词语，或者提供给正唤起听觉感知的设备的新信号被产生，该新信号导致如下词语的产生，该词语相对于在信号被设备使用的情形下将是的情况与将可能由接受者感知的词语不同的词语。

此外，在示例实施例中，信号被修改以产生相对于在没有修改的情形下将是的情况与接受者将可能理解的含义不同的含义，或者提供给正唤起听觉感知的设备的新信号被产生，该新信号导致如下含义的产生，该含义是相对于信号被设备使用的情形下将是的情况与将可能由接受者理解的含义不同的含义。该情况是本文的创新点的能力的一个相当“极端”(好的方面)的示例。在本文，接受者得到了一些本来并非如此的内容。请注意，这不是词语翻译，其中如果这个人明白这门语言的话，理解是一样的。这导致了一个根本不同的结果，那就是最高层次的听觉——理解。

与上述教导一致，在上述方法的示例实施例中，听觉假体被配置为唤起听觉感知，从而基于标识的结果向接受者提供混合词语。就此而言，仅作为示例而非限制，如果词语标识和/或词语预测系统对于所标识和/或预测的词语正确不具有足够高的置信度，和/或根据具体情况存在两个或多个可应用的“竞争”词语，则可以创建词语组合或者可以提供混合词语，其中接受者将听到可以解释为这两者的词语(或者不会基于人因工程学统计和/或心理分析数据以这样或那样的方式引导接受者)，但是在上下文中是可以理解的。例如，Carolina前面的“北”(north)或“南”(south)可能是“嘴”(mouth)，如“Mouth Carolina”接受者可能不知道哪个是哪个，但至少接受者不会被误导。事实上，完全有可能的是，是哪一个并不重要。然而，这可以防止向接受者提供虚假信息。替代地，因为讨论可能是关于去“Myrtle海滩”的旅行，接受者将理解这是指南卡罗来纳州(south Carolina)。也就是说，可以利用先进的系统，该系统由于上下文可以理解这应该是南卡罗来纳州。这表明了创新点的能力。

因此，在示例实施例中，鉴于上述情况，听觉假体(或系统的其他部分)可以被配置为评估标识的确定性水平，并基于对确定性水平的评估生成听觉感知，其中所生成的听觉感知取决于确定性水平而不同。

在方法500的示例实施例中，例如，信号被修改以产生相对于在没有修改的情形下将是的情况完全不同的声音，和/或提供给唤起听觉感知的设备的新信号被产生，该新信号唤起了相对于信号被设备使用信号的情形下将是的情况完全不同的声音。在一些实施例中，标识和/或预测语音数据中的一个或多个词语的动作包括：标识语音数据中的一个或多个句子，并且不存在可由听觉感知被唤起的人注意到的延迟。在一些实施例中，标识和/或预测语音数据中的一个或多个词语的动作包括标识语音数据中的一个或多个句子，并且存在的延迟(如果有的话)是上述延迟中的任何一种。

鉴于以上所述，可以看出，在一些实施例中，存在包括声音捕获设备和处理系统的听觉假体(与听觉假体系统相反，听觉假体系统可以包括智能手机或与其进行信号通信的远程设备)，其中听觉假体被配置为对由系统所捕获的声音(例如由听觉假体捕获的声音)进行转换，并且利用处理系统基于捕获的声音来处理信号，并且基于处理系统基于信号的输出来唤起听觉感知。在该示例实施例中，听觉假体是包括声音预测和/或词语标识功能的系统的一部分，使得该设备被配置为预测由声音捕获设备所捕获的声音。在本文，其可以是听觉假体的一部分，或者是与假体通信的另一个设备(例如智能手机)的一部分。注意，在该实施例中，是对声音进行预测，而不是对词语进行预测。

在一个示例实施例中，所有功能可以位于假体内或作为假体的一部分，而在其他实施例中，功能在整个系统中是分离的。实际上，在示例实施例中，该系统是听觉假体，这意味着该系统不包括具有该功能的其他组件，例如智能手机或远程处理器。

在示例实施例中，系统具有声音预测功能，即词语预测功能，并且在一些实施例中，具有声音预测功能的是听觉假体。在其他实施例中，声音预测功能位于另一个设备中，例如智能手机，例如经由远程服务器与听觉假体通信的计算机。此外，在示例实施例中，功能可以位于集成到通信系统中的上述黑盒中。

在示例实施例中，系统被配置为基于词语预测功能的结果来唤起听觉感知，被唤起的听觉感知不同于在没有词语预测功能结果时将是的情况。这与上述教导一致。在示例实施例中，声音预测功能是词语预测功能，并且系统具有这样的功能，并且其中词语预测功能是处理系统预测尚未接收到的一个或多个后续词语之后的词语的能力。如上所述，一个或多个后续词语可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15个后续词语，或者这之间的任何值或增量为1的值范围，假设本领域允许这样做。在示例实施例中，假体被配置为基于声音的预测来增加降噪算法的攻击性(aggressiveness)。在示例实施例中，假体被配置为基于声音的预测来降低降噪算法的攻击性/增加降噪算法的回归性(如上所述，在一些实施例中，可以认为本文的系统和教导是用于降噪)。在示例实施例中，这些是基于对词语的保护来完成的。

简而言之，与上述教导一致，在示例实施例中，听觉假体作为其一部分的系统(例如，假体本身)，可以被配置为在捕获声音和唤起听觉感知之间引入可变延迟(无论这种延迟是自动的/由系统开发的，还是基于用户的输入)，并且该系统被配置为利用预测功能来预测词语，然后将预测的词语与随后接收到的词语进行比较，然后调整系统的操作，例如调整听觉假体的操作，以基于该比较唤起听觉感知。此外，该系统可以被配置为在捕获声音的时间位置和唤起听觉感知之间引入延迟，该延迟是正常处理延迟的增量，并且该系统被配置为标识声音环境，并且基于标识的声音环境来改变延迟。在示例实施例中，假体或系统的其他部分配置有场景分类器，例如在2017年12月14日公布的题为“Advanced SceneClassification for Prosthesis”且发明人为Von Brasch的美国专利申请公开号2017-0359659中公开的场景分类器，和/或可以是与该申请中公开的设备/系统相对应的设备/系统/本文中的假体和系统可以与具有本文/如本文修改的附加功能的设备/系统相对应。这些设备和系统还可以有自己的声音检测器，用于确定环境。在示例实施例中，根据美国专利号2016/0080878的任何一个或多个教导来执行自身声音检测，和/或以触发该应用的控制技术的方式来实现与本文中检测自身声音相关联的教导。因此，在至少一些示例实施例中，假体100和/或设备240和/或远程设备被配置为或包括执行该专利申请中详述的一个或多个或所有动作的结构。此外，实施例包括执行与该专利申请中详述的一个或多个方法动作的执行相对应的方法。

在示例实施例中，根据WO 2015/132692的任何一个或多个教导来执行自身声音检测，和/或以触发该应用的控制技术的方式来实现与本文的自身声音检测相关联的教导。因此，在至少一些示例实施例中，假体100和/或设备240和/或远程装置被配置为或包括执行该专利申请中详述的一个或多个或所有动作的结构。此外，实施例包括执行与该专利申请中详述的一个或多个方法动作的执行相对应的方法。

同样如上所述，该设备可以使用潜在变量或其他装置，例如拾音线圈探测器等。

一些实施例包括语音增强算法和包括本领域中称为语音存在概率(SPP)估计器的组件的设备。图7提供了与本文的教导一起使用的示例实施例。在本文，可以通过获得精确的SPP来改进语音增强策略。当与本文的教导相结合时，可在本文的实施例中利用任何可商购的语音存在概率估计器。SPP估计器可以基于处理器或计算机等和/或基于芯片和/或可以基于人工智能系统，该人工智能系统是听觉假体的一部分或是整个系统(听觉假体是该系统的一部分)的独立部件的一部分。在示例实施例中，预测下一个或多个词语或句子等来增强语音。例如，一种实现方式包括，相对于在不进行预测时否则将是的情况，利用预测来增强对SPP的估计。预测的词语/声音可以用于生成单独的SPP和/或修改现有的SPP，其可以与语音增强算法的传统SPP相结合，前提是这样可增强其操作。

图7提供了利用刚刚详述的教导的示例实施例的框图。在图7中，框700可以对应于或者类似于图3的信号增强框。框720可以对应于或者类似于图3中标记为“信号识别和分析”的框。当然，还有其他方式来实现这一点，并且可以在至少一些示例实施例中利用能够实现本文详述的教导的任何设备系统和/或方法。

在一些实施例中，上述实施例强调了下一个词语或句子的“预测”，或者下一个词语之后的下一个词语或句子的“预测”等。在有延迟的情况下，这可能是有违常理的，因为下一个词语或句子已经说出并已知，不需要“预测”。然而，现实中对理想或完美词语的预测(例如，无干扰噪声或以清晰的口音说话)可能不是实际接收到的。因此，在一些实施例中，如果正确地预测了理想的词语或句子，则该词语的特征可以叠加在实际话语上，达到任何实用的程度。

因此，在示例实施例中，该系统包括语音存在概率估计器，该估计器基于软件或人工智能组件(芯片、处理器)或经训练的专家系统等，在听觉假体的处理器中实施和/或远离假体实施，例如在智能手机或远程设备中。此外，该系统被配置为利用声音预测功能(例如，词语预测功能，其包括句子预测功能和短语预测功能)来增强语音存在概率估计器的功能。

图8示出了示例方法(方法800)的另一示例流程图。方法800包括方法动作810，其包括：接收包含语音的数据并标识其中的一个或多个词语。方法800还包括方法动作820，其包括：将所标识的词语与先前标识的词语(即，在所标识的词语之前刚刚接收的词语，如果有的话)相关联。方法动作830也是方法800的一部分，包括：基于所标识的一个或多个词语来预测下一个或多个词语。方法800还包括方法动作840，其包括：基于所预测的下一个词语或多个词语来增强降噪或其他信号处理技术。只要希望使用方法800，就重复方法动作810至840。就此而言，在示例实施例中，本文详述的系统和装置以及假体可以被配置为自动接合和/或脱离预测/标识功能以及与之相关联的控制特征/信号操纵/信号制造。

实施例包括应用智能来辅助语音识别/语音预测的听觉假体声音处理器组件(BTE设备/离耳(OTE)设备)。这不是简单的对传入声音的分类——这是试图真正理解传入语音的概念。实施例可以利用耳后或耳内听觉仪器和/或OTE仪器中的当前词语和/或声音预测和/或词语标识的基本特征。

在一些实施例中，一旦识别出一个或多个单词或句子，听觉仪器就可以完全控制如何将该句子传递给听者。其可以以一种无噪声、易于理解的方式呈现，前提是这种方式是实用的。

实际上，实施例可以包括提供基于完全合成信号的语音听觉感知。这不是简单的完全消除噪声。相对于捕获到的恰好包含语音的声音而言，这是创造全新的“声音”。在至少一些实施例中，利用本文详述的教导来实现这一点。

本文详述的教导对于提高目前言语理解能力较差的人的言语感知能力具有实用价值。这可能是因为他们很可能对简化的声音表达做出最好的反应——如果理解了原始语音的含义，就可以实现这一点，但是如果没有这些知识，则很难做到。相当一部分耳蜗植入物接受者属于这一类，其原因目前尚不清楚。本文详述的教导可以用来帮助这些人。

现代手机和Skype等通信应用程序使用实时语音编码技术来跟踪音高和共振峰——语音中变化相对较慢的参数。然后，其在接收端重构语音。实施例可以利用该技术来实现上述特征，但是应当注意，这并不试图识别说出的词语。

至少一些示例实施例在特定收听情况下利用可接受延迟(或可容忍延迟)的长度来提高语音理解，在一些情况下，特别是使用耳蜗植入物设备时，这种提高是显著的。

在示例实施例中，在所有其他条件均相同的情况下，利用本文详述的词语预测和/或词语识别和/或声音预测技术，在针对耳蜗植入接受者的标准化听力测试中(截至2019年4月26日，Cochlear Limited认为该测试具有实用价值)，相对于在无本文详述的预测/标识技术的情况下使用听力假体的情况，可以提高至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、175、200、250、300、350、400、450、500、600、700、800、900或1000％或更多，或其间的任何值或值范围，增量为1％，所有其他条件相同。

应该注意的是，在已经识别出语音的情况下，在某些情况下，可以逐步提高感知。在用户的语音感知非常差的情况下——例如对于一些耳蜗植入物接受者——以与原始说话者的声音几乎完全不同的清晰声音向用户提供输出可能是实用的。并且本文详述的教导能够实现这一点。在一些实施例中，听觉仪器可以提供从原始语音输入中获得的一些线索(例如音高)，并且从例如与用户的需求和语音识别能力相匹配的现有声音库重建语音。对于具有良好语音感知的用户，可以保留原始语音的大部分质量并将其传输给用户。从语音识别中获得的知识可以用来“清理”语音，例如通过除去信号中的背景噪声或使辅音更加清晰或使共振峰过渡(区分元音)更加明显。然后，所得到的语音输出可以基于带有或不带有修饰的原始说话者的语音特征，例如，由听觉仪器上运行的软件的内置智能提供，或者由远程设备提供。修饰的程度将与用户的需求相匹配，并且可以根据噪声水平或用户在识别语音时可能遇到的困难而变化。此外，存在这样的实施例，即评估输入语音对用户的可能可理解性并改变处理策略以最适合该可理解性水平的实施例。在一些实施例中，这可以包括与已知用户可理解的计算机生成语音的程度或比例相比，改变传送给用户的原始语音的程度或比例。

实施例包括将环境声音减少到仅是语音。实施例还包括提供完全合成的听觉感知，该听觉感知与周围环境中的实际语音几乎无(如果有的话)相似性。仅作为示例而非限制，一些人的语音频率或语音模式或特殊说话特征可能会使耳蜗植入物接受者难以听到。实施例包括开发供听觉假体使用的数据集，该数据集唤起与说话者的声音几乎无(如果有的话)相似性的听觉感知，前提是该听觉感知提供或使接受者能够更好地理解语音。因此，至少一些示例实施例提供了一种听觉假体，该听觉假体相对于在无教导时的情况提供了以最基本水平或更基本水平向接受者传送语音的单一功能。在一些实施例中，至少在相应地使用该设备的时间段期间，将假体简化为仅仅是通信设备。虽然上述实施例有时集中于完全开发新信号，但是应当注意，并非在所有情况下都必须如此，可以以各种方式利用智能声音和语音识别来进行信号增强。其中一些方式用于完全合成新语音，而在其他实施例中用于修改给定信号。当然，对于接受者而言，最终结果可能无明显不同。简单地指出，根据本文详述的教导，涵盖了两种方式或任何其他方式，前提是这能够实现本文的目标和教导。

实施例包括根据特定需求和/或特定人员来定制系统操作。从上文可以很容易地理解，本文的创新点的教导可以与现有的声音流组件和方法相结合，以实现接受者将会听到的内容。声音和/或语音识别器可以被配置为输出其所标识的声音的计算机生成的版本。

实施例可以包括确定给定接受者相对于听觉假体的表现水平。对于表现不佳的人来说，可以以非常积极的形式使用本文详述的教导，以便几乎(如果不是完全集中在语音理解上的话)完全集中在语音理解上。对于表现较佳的人来说，可以采取一种较温和的方法，相对于最终的听觉感知进行更细微的改变、修改或复制。实际上，在一些实施例中，本文详述的教导可以与机载训练系统和/或数据记录器和/或数据分析设备相结合，该机载训练系统和/或数据记录器和/或数据分析设备可以至少以足以影响本文的系统的操作的一般方式来确定听力假体接受者的熟练程度。替代地，本文的设备、系统和方法可以由保健专业人员等设置，并且基于该保健专业人员对给定接受者的熟练程度的分析进行调整。

实施例可以平衡增加的延迟和对用户体验的显著干扰。这可以通过允许接受者对延迟进行一些和/或完全控制来实现。例如，实施例可以包括这样的布置，其中系统实现由系统选择的延迟，接受者提供关于延迟可接受还是不可接受的输入，并且系统可以迭代或修改延迟，直至达到平衡。

在一些示例实施例中，处理延迟总是至少大于10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60或70毫秒或其间的任何值或值范围，增量为1ms。当然这只是一些实施例，而不是所有实施例。

图9示出了系统的功能示意图，利用该系统可以实现本文详述的一些教导和/或其变型。就此而言，图9是示出一种示例布置的示意图，其中系统1206可用于执行本文结合听觉假体100的使用详述的一个或多个或所有方法动作。将至少部分地就与接受者的交互来描述系统1206。在示例实施例中，系统1206是接受者控制的系统。在示例实施例中，系统1206可以对应于远程设备240，如上所述，远程设备240可以是便携式手持设备，和/或可以是个人计算机等。还应注意，系统106可对应于本文详述的任何系统，或本文的任何处理系统。

在示例实施例中，系统1206可以是根据本文详述的方法动作具有附加功能的系统。在图9所示的实施例中，听觉假体100可以连接到系统1206，以在听觉假体100和系统1206之间建立数据通信链路1208。此后，系统1206通过数据通信链路1208与听觉假体100双向耦合。在至少一些实施例中，可以使用能够实现本文详述的教导的任何通信链路，即将植入物和系统可通信地耦合。

系统1206可以包括系统控制器1212以及用户接口1214。控制器1212可以是能够执行指令的任何类型的设备，例如通用或专用计算机、手持计算机(例如个人数字助理(PDA))、数字电子电路、集成电路、专门设计的专用集成电路(ASIC)、固件、软件和/或其组合(注意，如果这些设备能够实现本文的教导，则本文详述的任何功能组件/功能可以在这些设备中的任何一个中实现，例如通过向其提供存储在板上存储器中的程序)，如果为控制器1212提供程序和硬件和/或固件，或者为其提供实用电路，则控制器1212可以执行本文的一些或所有方法动作。如下文将详述，在示例实施例中，控制器1212是处理器。控制器1212可以还包括用于与听觉假体100建立数据通信链路1208的接口。在控制器1212包括计算机的实施例中，该接口例如可以在计算机内部或外部。例如，在示例实施例中，控制器1206和耳蜗植入物可以各自包括USB、Firewire、蓝牙、Wi-Fi或其他通信接口，通过这些接口可以建立数据通信链路1208。控制器1212还可以包括用于存储信息的存储设备。该存储设备可以是例如易失性或非易失性存储装置，例如随机存取存储器、固态存储装置、磁存储装置、全息存储装置等。

用户接口1214可以包括显示器1222和输入接口1224(在为便携式设备的触摸屏的情况下，二者可以是相同的)。显示器1222可以是例如任何类型的显示设备，例如通常用于计算机系统的显示设备。在示例实施例中，元件1222对应于被配置为向接受者1202可视地显示多个词语(包括句子)的设备，如上所述。

第9页的系统可用于并非所有执行的功能都由假体执行的实施例中。在一些实施例中，系统1206可以是智能手机。

输入接口1224可以是能够从接受者接收信息的任何类型的接口，例如计算机键盘、鼠标、语音响应软件、触摸屏(例如，与显示器1222集成)、麦克风(例如，可选地与声音识别软件等耦合)、视网膜控制器、操纵杆以及现在或以后开发的任何其他数据输入或数据呈现格式。输入接口1224可以是智能手机的触摸屏。注意，在示例实施例中，显示器1222和输入接口1224可以是相同组件(例如，在触摸屏的情况下)。在示例实施例中，输入接口1224是被配置为从接受者接收输入的设备，该输入指示对显示器1222呈现的多个词语中的一个或多个的选择。

注意，在至少一些示例实施例中，系统1206被配置为执行本文详述的一个或多个或所有方法动作，其中相对于本文详述的给定方法动作，以传统方式来利用系统1206的各种子组件。

在示例实施例中，上面详述的系统1206可以自动执行本文详述的一个或多个或所有动作和/或其变型，至少是执行那些不需要接受者采取动作的动作。

在这种情况下，应再次注意图9的示意图是功能性的。在一些实施例中，系统1206是自含式设备(例如，膝上型计算机、智能手机等)，其被配置为执行本文详述的一个或多个或所有方法动作和/或其变型。在备选实施例中，系统1206是具有位于不同地理位置的组件的系统。仅作为示例而非限制，用户接口1214可以位于接受者处(例如，其可以是便携式手持设备240)，而系统控制器(例如，处理器)1212可以位于远离接受者的位置。仅作为示例而非限制，系统控制器1212可以经由互联网和/或经由蜂窝通信技术等与用户接口1214通信，从而与便携式手持设备240通信。实际上，在至少一些实施例中，系统控制器1212还可以经由互联网和/或经由蜂窝通信等与用户接口1214通信。再次，在示例实施例中，用户接口1214可以是便携式通信设备，例如，仅作为示例而非限制，蜂窝电话和/或所谓的智能手机。事实上，用户接口1214可以用作膝上型计算机等的一部分。至少在一些实施例中可以使用能够实现系统1206和/或能够实现使得本文详述的教导和/或其变型得以实现的系统的任何布置。

鉴于以上所述，图10描绘了示例功能示意图，其中远程设备240经由链路2230与地理上远程的设备/设施10001通信，链路2230可以是互联网链路。地理上远程的设备/设施10001可以包含控制器1212，并且远程设备240可以包含用户接口1214。同样，可以看出，假体100和远程设备10001之间可以存在直接链路2999。

相应地，示例实施例需要执行本文详述的一些或所有方法动作，其中听觉假体的接受者、听觉假体100和/或便携式手持设备240远离(例如，地理上远离)执行本文详述的至少一些方法动作的位置。远程执行的这些方法动作可以是上述任何词语预测/标识/声音预测功能等。(智能手机或其他额外设备可以执行/被配置为执行这些方法中的一个或多个/具有这些功能。)

注意，在描述本文的各种教导时，各种动作和/或能力已归属于系统210的各个元件。就此而言，本文中与听觉假体100的给定功能或能力相关联的任何公开内容也对应于具有该给定功能或能力的远程设备240(例如，便携式手持设备)的公开内容，前提是本领域能够实现该给定功能或能力，和/或对应于具有该给定功能或能力的地理远程设施10001的公开内容，前提是本领域能够实现该给定功能或能力。由此推论，本文中与远程设备240的给定功能或能力相关联的任何公开内容也对应于具有该给定功能或能力的听觉假体100的公开内容，前提是本领域能够实现该功能或能力，和/或对应于具有该给定功能或能力的地理远程设施10001的公开内容，前提同样是本领域能够实现该功能或能力。如上所述，系统210可以包括听觉假体100、远程设备240和地理远程设备1000。

注意，本文详述的任何方法也对应于被配置为执行与本文详述的内容相关联的一个或多个或所有方法动作的设备和/或系统的公开内容。在示例实施例中，该设备和/或系统被配置为以自动化方式执行一个或多个或所有方法动作。也就是说，在备选实施例中，设备和/或系统被配置为在经人提示之后执行一个或多个或所有方法动作。还应注意，本文详述的设备和/或系统的任何公开对应于制造和/或使用该设备和/或系统的方法，包括根据本文详述的功能使用该设备的方法。

注意，实施例包括非暂时性计算机可读介质，其上记录有用于执行本文详述的一个或多个或任何方法动作的计算机程序。实际上，在示例实施例中，存在其上记录有用于执行本文详述的任何方法动作的至少一部分的计算机程序的非暂时性计算机可读介质。

在备选实施例中，本文公开的由假体100执行的任何动作可以由设备240和/或远程系统执行，除非另有说明或者除非本领域不允许这样做。因此，在备选实施例中，假体100的任何功能都可以存在于设备240和/或远程系统中。因此，关于假体100的功能的任何公开内容对应于设备240和/或远程系统的结构，该结构被配置为执行该功能或具有功能或执行该方法动作。

在备选实施例中，本文公开的由设备240执行的任何动作可以由假体100和/或远程系统执行，除非另有说明或者除非本领域不允许这样做。因此，在备选实施例中，设备240的任何功能都可以存在于假体100和/或远程系统中。因此，关于设备240的功能的任何公开内容对应于假体100和/或远程系统的结构，该远程系统被配置为执行该功能或具有功能或执行该方法动作。

在备选实施例中，本文公开的由远程系统执行的任何动作可以由设备240和/或假体100执行，除非另有说明或者除非本领域不允许这样做。因此，作为备选实施例，远程系统的任何功能可以存在于设备240和/或假体100中。因此，关于远程系统的功能的任何公开内容对应于设备240和/或假体100的结构，该结构被配置为执行该功能或具有功能或执行该方法动作。

在示例实施例中，本文详述的处理组件可以包括专家子系统，该专家子系统包括将实现本文详述的词语预测/声音预测/词语标识的事实领域知识和经验，并且该处理组件可以包括或被配置为基于输入以上文详述的任何动作和/或活动的形式提供输出。就此而言，该系统可以是人工智能系统。为该系统提供了足够的训练和验证数据(“大数据”)，并且整个系统中包含了专家子系统。专家子系统可以融入事实领域知识和/或经验。相对于无专家来实现可比较输出的情况，在所有其他条件均相同的情况下，这使得系统所需数据量较少。

系统的专家子系统部分可以是可以经过训练以便在需要时进行更新的系统，其中人类专家可以确定更新是实用的。因此，该子系统是被配置为通过例如融入新规则、算法和修正、根据输入数据优化启发法和算法以使性能最大化而进行训练的系统。专家子系统被配置为使得一旦已经验证了更新，则系统的专家子系统便进行更新。在为用户操作期间，输入数据被处理，然后传递给形成系统推荐引擎的一部分的规则和算法。在一些实施例中，专家子系统用于以上详述的预测和标识。

在示例实施例中，经训练和/或部分经训练的子系统以标识/产生的形式提供输出。在一些实施例中，作为训练过程的一部分，该信息被呈现给专业人员以供审阅和反馈。然后可以根据反馈来修改建议。然后收集关于用户或声音体验的数据，以提高性能/继续训练。

因此，从上文可以看出，在示例实施例中，处理套件是系统的专家子系统，其包括用于分析度量的机器学习算法的代码和/或来自机器学习算法的代码，并且其中机器学习算法是基于统计显著性群体训练的训练系统。

根据示例实施例，示例机器学习算法可以是DNN算法。在至少一些示例实施例中，系统的输入可以由DNN(或者由DNN产生/来自DNN的代码)处理。

“神经网络”可以作为机器学习系统。本文对这种“神经网络”的任何公开内容构成了对这种“机器学习系统”的公开内容。虽然本文的实施例集中于神经网络的种类，但是应当注意，其他实施例可以利用其他种类的机器学习系统。因此，本文的神经网络的任何公开内容构成了能够实现本文详述的教导及其变型的任何其他种类的机器学习系统的公开内容。明确地说，根据本文详述的教导的至少一些实施例是无需显式编程便具有学习能力的实施例。因此，关于一些实施例，本文对设备、系统的任何公开内容构成了对无需显式编程便具有学习能力的设备和/或系统的公开内容，并且对方法的任何公开内容构成了无需为此进行显式编程便使得进行学习的动作。

因此，实施例包括利用机器学习算法的代码和/或来自机器学习算法的代码来分析获得的数据/输入到系统中的数据，以开发可用于实现本文适用教导的数据。同样，在示例实施例中，机器学习算法可以是DNN，并且代码可以对应于经训练的DNN和/或可以是来自DNN的代码(下文将对此进行更多描述)。

注意，本文公开的任何方法动作对应于非暂时性计算机可读介质的公开内容，该非暂时性计算机可读介质具有用于执行这种方法动作的程序代码，前提是本领域能够实现这种方法动作。此外，在本领域允许的情况下，本文公开的任何方法动作对应于对来自机器学习算法的代码和/或用于执行这种算法的机器学习算法的代码的公开内容。就此而言，代码可以对应于经训练的神经网络。也就是说，如下文将详述，可以向神经网络“馈送”与系统的输入和系统的输出(链接到输入)对应的大量(例如，统计上显著的量)数据，并对其进行训练，使得系统可以仅使用输入来开发输出(在系统经过训练之后)。该用来完成后面任务的神经网络是“经过训练的神经网络”。也就是说，在一个备选实施例中，可以利用经训练的神经网络来提供(或从中提取)可以与可训练的神经网络分开使用的算法。在一个实施例中，存在构成机器学习算法的训练路径，该机器学习算法从未经训练开始，然后该机器学习算法接受训练并“毕业”，或者成熟为可用代码——经训练的机器学习算法的代码。关于另一条路径，来自经训练的机器学习算法的代码是经训练的机器学习算法(或其一些变体，或其前身)的“后代”，可将其视为是其突变后代或克隆。也就是说，关于该第二条路径，在至少一些示例实施例中，机器学习算法的使其能够学习的特征在一些方法动作的实践中可能未利用到，因此不存于最终系统。相反，只使用学习的结果。

在示例实施例中，来自机器学习算法的代码和/或机器学习算法的代码利用非启发式处理来开发系统可利用的数据。就此而言，用于执行本文详述的一个或多个方法动作的系统取入数据并从中提取基本信号，并使用该基本信号来通知自己。仅作为示例而非限制，该系统利用除一阶线性算法之外的算法，并且“观察”不止一个提取的特征。相反，该算法“注意”多个特征。此外，该算法利用更高阶的非线性统计模型，该模型能够自己学习输入中的哪些特征对于研究是重要的。如上所述，在示例实施例中，利用DNN来实现这一点。实际上，在示例实施例中，作为实现本文详述的教导的基础，存在潜在的假设，即使得产成听觉损失的系统中的声音和/或其他输入的特征太复杂而无法具体说明，并且以一种不知道算法究竟基于什么来进行其预测/该算法期望在哪方面发展其预测的方式来利用DNN。更进一步，在示例实施例中，输出是听觉图的预测。

在至少一些示例实施例中，DNN是用于进行预测的结果代码。在训练阶段，使用了许多训练操作算法，一旦对DNN进行了训练，便移除这些算法。

简而言之，应当注意，在至少一些实施例中，本文使用的神经网络或其他机器学习算法未利用相关性，或者在一些实施例中，未利用简单的相关性，而是发展关系。就此而言，学习模型是基于利用潜在的关系，这些关系在更大的事物计划中可能不明显或甚至不可标识。在示例实施例中，利用MatLAB、Buildo等来开发神经网络。在本文详述的至少一些示例实施例中，所得到的训练系统不关注特定的声音特征，而是基于在学习过程中提供给系统的底层显著样本(例如，统计显著样本)中存在的整体关系。系统本身可可以计算出这些关系，并且不存在基于与系统计算出的关系相关联的特征的已知相关性。

最终结果是一个与输入特征无关的代码。也就是说，经训练的神经网络的代码和/或来自经训练的神经网络的代码使得人们无法标识代码利用什么输入特征来开发产品(系统的输出)。最终的排列是用于预测系统推荐的未知数量的声音特征的复杂排列。该代码以神经网络的语言编写，并且本领域普通技术人员将其理解为与利用特定和已知特征的代码不同。也就是说，在示例实施例中，代码看起来像神经网络。

与普通的神经网络一致，存在隐藏层，并且在该过程中利用隐藏层的特征来预测受试者的听觉障碍。

然而，应当注意，在至少一些示例实施例中，未利用神经网络或基于神经网络的某种形式的机器学习算法或代码来执行本文详述的一个或多个方法动作。然而，在至少一些示例实施例中，通过利用以神经网络语言编写的代码来执行一些方法动作。

应进一步注意，在至少一些示例实施例中，用于训练本文详述的机器学习系统的数据可以利用具有助听器和/或耳蜗植入物等的显著群体(例如，统计显著群体)来开发。

因此，鉴于上述内容，应理解，在至少一些实施例中，机器学习算法的代码是经训练的神经网络。

人工智能组件和/或DNN等可以嵌入在芯片上/芯片中，该芯片可以用在本文的系统中/作为系统的一部分。

计算机系统可以实现为个人计算机、膝上型计算机、工作站、手持计算机或专门设计用于实现本文的一些教导的专用设备。可以设想，声音分析功能的部分或全部功能可以在可穿戴计算机中实现和/或与声音捕获设备集成，或者设置在诸如听写机、蜂窝式电话、录音机、MP3录音机/播放器、苹果电脑公司的iPod或类似设备的设备中。

在至少一些示例实施例中，如上所述，存在对应于软件产品的非暂时性计算机可读介质。本文描述的组件的逻辑操作可以实现为(1)微处理器实现的动作序列或在微处理器上运行的程序模块，和/或(2)计算设备内互连的机器逻辑电路或电路模块。实现是取决于特定应用的性能要求的选择问题。因此，本文描述的逻辑操作可以不同地称为操作、例程、结构设备、动作或模块。虽然有时将实施例论述为实施为软件，但是本领域技术人员将认识到，这些操作、结构设备、动作和模块可以用软件、固件、专用数字逻辑及其任意组合来实现。

一些实施例包括用于实现本文一些教导的特征的分布式架构。在该实现中，涉及捕捉声音和向用户呈现反馈的客户端过程由客户端组件提供，而信号处理和分析由网络耦合服务提供。用于实现某些功能的资源可以由多个客户端共享。当由于计算密集型过程被卸载到信号处理服务，客户端可以用相对低成本、轻量级的组件来实现。网络可以包括局域网(LAN)、广域网(WAN)、诸如因特网的公共网络或其他网络实现形式。

应进一步注意，本文详述的设备和/或系统的任何公开内容也对应于提供该设备和/或系统的公开内容。

还应注意，本文中对制造或提供设备的任何过程的公开内容都对应于由此产成的器件和/或系统。还应注意，本文中任何装置和/或系统的任何公开内容对应于生产或提供或制造这种装置和/或系统的方法的公开内容。

本文公开的任何实施例或任何特征可以与本文公开的任何一个或多个或其他实施例和/或其他特征组合，除非明确指出和/或除非本领域不允许这样做。本文公开的任何实施例或任何特征可被明确排除与本文公开的任何一个或多个其他实施例和/或其他特征一起使用，除非明确指出这是组合的和/或除非本领域不允许这样排除。

虽然上面已经描述了本发明的各种实施例，但是应理解，这些实施例仅仅是作为示例给出的，并不具有限制性。对于相关领域的技术人员来说显而易见的是，在不脱离本发明的精神和范围的情况下，可以在形式和细节上进行各种改变。

Claims

1.一种方法，包括：

接收包括语音数据的信号；

处理所接收的所述信号以标识和/或预测所述语音数据中的一个或多个词语；以及

基于所接收的所述信号唤起听觉感知，其中所唤起的所述听觉感知包括基于对所述一个或多个词语的标识和/或预测的一个或多个经修改词语。

2.根据权利要求1所述的方法，其中：

所述处理与所述听觉感知中由所述听觉感知被唤起的人注意到的、相对于在没有所述处理的情形下将是的情况的可注意的延迟相关。

3.根据权利要求1所述的方法，其中：

所述处理包括利用语音识别软件来标识所述一个或多个词语。

4.根据权利要求1所述的方法，其中：

所述处理不与听觉假体中由所述听觉感知被唤起的人注意到的可注意的延迟相关。

5.根据权利要求1所述的方法，其中以下至少一项：

所述信号被修改以产生相对于在没有所述修改的情形下将是的情况听起来不同的词语；或者

提供给唤起所述听觉感知的设备的新信号被产生，所述新信号导致如下词语的产生，所述词语相对于在所述信号被所述设备使用的情形下将是的情况听起来不同。

6.根据权利要求5所述的方法，其中以下至少一项：

所述信号被修改以产生具有相对于在没有所述修改的情形下将是的情况不同的口音的词语；或者

提供给唤起所述听觉感知的设备的新信号被产生，所述新信号导致如下词语的产生，所述词语具有相对于在所述信号被所述设备使用的情形下将是的情况不同的口音。

7.根据权利要求1所述的方法，其中：

在所述听觉感知被唤起的人与产生所述语音数据的人之间的对话期间，处理所接收的所述信号的动作被实时地执行。

8.根据权利要求1所述的方法，其中：

标识和/或预测所述语音数据中的一个或多个词语的动作包括：标识和/或预测所述语音数据中的一个或多个句子。

9.根据权利要求1所述的方法，其中：

被唤起的所述听觉感知包括基于对所述一个或多个词语的标识和/或预测的完全合成的词语，以替代基于所述信号将呈现的词语。

10.根据权利要求1所述的方法，其中：

被唤起的所述听觉感知仅包括语音，所述语音有意不同于在没有所述标识和/或预测的情形下将是的情况的语音。

11.一种方法，包括：

接收包括语音数据的信号；

基于所接收的所述信号唤起听觉感知，其中所唤起的所述听觉感知是相对于在没有所述标识和/或预测的情形下将是的情况不同的听觉感知。

12.根据权利要求11所述的方法，还包括：

基于所标识和/或所预测的所述一个或多个词语，自动调整正唤起所述听觉感知的听觉假体的噪声控制系统。

13.根据权利要求11所述的方法，还包括：

基于所标识和/或所预测的所述一个或多个词语，自动调整正唤起所述听觉感知的听觉假体的音量和/或增益。

14.根据权利要求11所述的方法，其中以下至少一项：

信号被修改以产生如下的词语，所述词语是相对于在没有所述修改的情形下将是的情况与将可能由所述接受者感知的词语不同的词语；或者

提供给唤起所述听觉感知的设备的新信号被产生，所述新信号导致如下的词语的产生，所述词语是相对于在所述信号被所述设备使用的情形下将是的情况与将可能由所述接受者感知的词语不同的词语。

15.根据权利要求11所述的方法，其中以下至少一项：

信号被修改以产生如下的含义，所述含义是相对于在没有所述修改的情形下将是的情况与将可能由所述接受者理解的含义不同的含义；或者

提供给唤起所述听觉感知的设备的新信号被产生，所述新信号产生相对于在所述信号被所述设备使用的情形下将是的情况与将可能由所述接受者理解的含义不同的含义。

16.根据权利要求11所述的方法，其中：

所述信号被修改以产生相对于在没有所述修改的情形下将是的情况完全不同的声音；或者

提供给唤起所述听觉感知的设备的新信号被产生，所述新信号导致相对于在所述信号被所述设备使用的情形下将是的情况完全不同的声音的唤起。

17.根据权利要求1所述的方法，其中：

标识和/或预测所述语音数据中的一个或多个词语的动作包括标识所述语音数据中的一个或多个句子，并且没有能够由所述听觉感知被唤起的人注意的可注意的延迟。

18.根据权利要求11所述的方法，其中：

所述处理与听觉假体中能够由所述听觉感知被唤起的人注意的、相对于在没有所述处理的情形下将是的情况的可注意的延迟相关；以及

所述方法还包括：

评估与所接收的所述信号有关的整体上下文；

确定将导致所述可注意的延迟的针对延迟的一个或多个参数；以及

调整由所述处理使用的处理方案，使得所述可注意的延迟落在所述一个或多个参数内。

19.根据权利要求17所述的方法，其中：

所述一个或多个参数包括所述延迟的长度；并且

所述延迟的所述长度对于基于视频的语音数据而言长于实时语音数据，所述实时语音数据来自向用于唤起所述听觉感知的听觉假体的接受者讲话的人。

20.根据权利要求11所述的方法：

其中所述听觉假体被配置为唤起听觉感知，使得混合词基于所述标识的结果被提供给所述接受者。

21.根据权利要求11所述的方法：

其中所述听觉假体被配置为评估所述标识的确定性水平，并基于对所述确定性水平的评估产生听觉感知，其中所产生的所述听觉感知取决于所述确定性水平而不同。

22.根据权利要求11所述的方法，还包括：

被唤起的所述听觉感知是以音调、独特性和/或重音为代价来最大化对语音的理解的完全合成的听觉感知。

23.一种系统，包括：

听觉假体，包括声音捕获设备和处理系统，其中所述听觉假体被配置为转换由所述系统捕获的声音，并且利用所述处理系统基于所捕获的所述声音来处理信号，并且基于来自所述处理系统的基于所述信号的输出唤起听觉感知，其中

所述系统包括声音预测和/或词语标识功能性，使得所述系统被配置为预测由所述声音捕获设备所捕获的声音。

24.根据权利要求23所述的系统，其中：

其中所述系统具有声音预测功能性，所述声音预测功能性是词语预测功能性。

25.根据权利要求24所述的系统，其中：

其中所述系统被配置为基于所述词语预测功能性的结果来唤起听觉感知，所唤起的所述听觉感知不同于在没有所述结果的情形下将是的情况。

26.根据权利要求23所述的系统，其中：

其中所述声音预测功能性是词语预测功能性，并且所述系统具有词语预测功能性，并且其中所述词语预测功能性是预测在尚未由所述处理系统接收到的一个或多个后续词语之后的词语的能力。

27.根据权利要求23所述的系统，其中：

所述假体被配置为基于声音的预测来增加降噪算法的攻击性。

28.根据权利要求23所述的系统，其中：

所述系统包括语音存在概率估计器；并且

所述系统被配置为使用所述声音预测功能性来加强所述语音存在概率估计器的功能性。

29.根据权利要求23所述的系统，其中：

所述系统被配置为在声音捕获和所述听觉感知的唤起之间引入可变的延迟；并且

所述系统被配置为使用所述预测功能性来预测词语，然后将所预测的所述词语与随后接收到的词语进行比较，然后基于所述比较来调整所述系统用以唤起听觉感知的操作。

30.根据权利要求23所述的系统，其中：

所述系统被配置为在所述声音捕获的时间位置与所述听觉感知的唤起之间引入延迟，所述延迟是正常处理延迟的增量；并且

所述系统被配置为标识声音环境，并且基于所标识的所述声音环境来改变所述延迟。