CN117222364A

CN117222364A - 用于听力训练的方法和设备

Info

Publication number: CN117222364A
Application number: CN202280031937.8A
Authority: CN
Inventors: 阿曼达·菲尔波特; 安德鲁·尚克斯
Original assignee: Ejim Ltd
Current assignee: Ejim Ltd
Priority date: 2021-04-29
Filing date: 2022-04-27
Publication date: 2023-12-12
Also published as: US20240181201A1; JP2024517047A; EP4329609A1; CA3214842A1; WO2022229287A1; AU2022267009A1

Abstract

一种计算机实现的方法、用户设备和存储指令的非暂时性计算机可读介质，该指令用于使用用户设备执行听力训练，用户设备包括用户接口和音频输出，该训练包括：使用音频输出提供背景音频信号和目标音频信号，目标音频信号至少部分地与背景音频信号重叠，并且目标音频信号限定要由用户确定的信息；其中，背景音频信号和目标音频信号中的一个或两个包括双耳音频；在用户接口处接收与由目标音频信号限定的信息的用户评估相对应的用户输入；以及基于由用户输入指示的用户评估向用户提供反馈。

Description

用于听力训练的方法和设备

技术领域

本发明涉及用于执行听力训练的计算机实现的方法，特别是使用智能用户设备的方法。特别地，本发明提供了一种训练用户的听力的特别有效和方便的手段。

背景技术

人类通过他们的耳朵检测空气中的振动来听到或感知声音。听觉是人类与环境互动的关键方式。

然而，听力损失对许多人来说是一种常见的痛苦。随着时间的推移，与年龄相关的听力损失可能会逐渐发生，在60岁以上的人群中尤为常见。同样，当人们暴露于机器、爆炸或枪声和嘈杂的音乐等巨大噪声时，也会发生与噪声相关的听力损失。

将理解的是，患有听力损失的人对声音的感觉反应减弱，并且认知负荷增加，因为他们的大脑难以适应他们听力的变化，并且不得不更加努力地处理和辨别噪声。因此，可以帮助用户更好地欣赏声音和/或减少与听力相关的认知负荷的训练方法是非常可取的。事实上，特别缺乏可用于帮助那些与年龄相关或与噪声相关的听力损失的人的工具。

先前已经提出了测量、监控和训练听力的方法。然而，这些方法通常会遇到一些常见问题。最关键的是，现有的方法无法精确地反映现实生活。所涉及的任务和技术为用户在日常生活中提供了糟糕的训练。此外，测试和训练通常是基于实验室的并且需要专业设备。因此，许多用户可能无法使用这些方法。最后，虽然不同的用户可能有明显不同的听力损失范围或等级，但传统的方法通常涉及对每个用户都是相同的机制。这种不灵活性降低了这些现有方法的有效性。

因此，显然需要改进的听力训练方法、系统和设备，其至少克服上文所指出的一些问题。

发明内容

根据本发明的一个方面，提供了一种用包括用户接口和音频输出的用户设备执行听力训练的计算机实现的方法，该方法包括：使用音频输出提供背景音频信号和目标音频信号，目标音频信号至少部分地与背景音频信号重叠，并且目标音频信号限定要由用户确定的信息；其中，背景音频信号和目标音频信号中的一个或两个包括双耳音频信号；在用户接口处接收与由目标音频信号限定的信息的用户评估相对应的用户输入；以及基于由用户输入指示的用户评估向用户提供反馈。

将理解的是，本发明的这个方面提供了训练用户的听力的特别现实的并且因此有效的方法。训练模仿用户在日常生活中经历的声音和情景。

用户必须将目标音频信号与背景音频信号区分开来，确定或识别由目标音频赋予的信息，并提供与他们对目标音频的理解相关的用户输入。在接收反馈时，用户可以理解他们对目标音频信号的评估是否正确，并且因此可以发展他们的听力技能。通过这种方法可以发展的听力技能包括：声音检测；定位；辨别；安静的可懂度；以及噪声的可懂度。

本发明利用双耳音频，这里我们的意思是包括两个不同的音频通道(即右音频通道和左音频通道)的音频，每个音频通道被配置为独立地向听者的各个耳朵提供相同的声音，其中音频通道基于耳朵相对于彼此的假定布置而不同。例如，上面讨论的双耳音频可以使用以与人耳类似的方式被定位在模型头部或人头部的任一侧上的两个麦克风来记录。这种方法通常被称为“双耳记录”或双耳记录声音的过程。每个麦克风录制的声音之间的差异——即双耳音频的两个音频通道之间的差异——是由两个麦克风在模型或人头部上的相对定位限定的，这理想地近似于听者耳朵的相对位置。可替选地，通过使用限定用户耳朵之间的假定关系的传递函数(即头部相关的传递函数(head-related transfer function，HRTF))从常规音频中形成两个音频通道，可以由常规音频人工合成或生成上面讨论的双耳音频。特别地，双耳音频的右音频通道和左音频通道之间的差异可以基于头部相关传递函数(HRTF)，其表征每只耳朵如何从空间中的特定点接收声音。在优选的示例中，双耳音频可以根据用户的头部和双耳音频内的声音的表观源之间的相对定位和取向来适应或改变。各种软件产品可用于从单声道或立体声声音生成双耳音频，包括由Sennheiser ElectronicGmbH&Co.生产的“AMBEO Orbit”插件和由Dear Reality GmbH生产的“DearVR MICRO”插件，它们都是由Avid Technology,Inc.生产的“Pro Tools”音频制作软件的插件。

总之，双耳音频是立体声音频(也称为“立体声音频”或“立体声”)的具体示例，其中右音频通道和左音频通道之间的差异基于听者耳朵之间的假定关系。这个假定的关系对应于用于每只耳朵的头部相关传递函数(HRTF)，这在常规的立体声音频中是不存在的。

如上所讨论的，目标音频信号和/或背景音频信号内的双耳音频可以被双耳记录和/或可以从各自的输入音频信号(例如各自的单声道或立体声输入音频信号)中生成或合成。

发明人已经认识到在听力训练中使用双耳音频是特别有益的。与常规的单声道音频(也称为“单声道音频”、“单声音频”或“单声道”)或立体声音频相反，双声道音频特别类似于用户在现实生活中听到的声音。这允许训练特别精确地模仿用户通常经历的情景和任务。此外，双耳音频允许用户训练声音的空间分辨率——即用户基于每只耳朵听到声音的方式中的差异来识别声音的位置或来源的能力或技能。这是一项由健康人类经常使用的技能，但对于那些听力损失的人来说尤其困难，特别是在一个人的两只耳朵听力损失不同的情况下。使用传统的单声道或立体声声音特别难以实现对用户的声音的空间分辨率的这种训练。

此外，双耳音频的使用允许空间化。空间化是修改音频信号以使其对听者可定位的过程，以便由音频信号限定的声音看起来源自特定位置。空间化的音频允许创建特别复杂的听力训练情景。因此，本文所讨论的所有双耳音频都可以是空间化音频，并且对双耳音频的引用可以在适当的情况下被替换为空间化音频。

在优选示例中，该方法包括跟踪用户的头部相对于目标音频信号和/或背景音频信号的双耳音频内的声音的表观源的定位和取向。随后，该方法可以包括基于用户的头部相对于声音的表观源的定位和/或取向来适配目标音频信号和/或背景音频信号中的双耳音频，使得表观源的位置看起来与用户一致。因此该方法可以涉及所谓的“头部跟踪”。该头部跟踪可以使用被配置为检测用户的头部的运动的相机、安装到用户的头部或用户设备的加速度计或传感器和/或任何其它合适的方法来执行。可替选地，用户的头部的定位和取向可以基于用户设备的定位和/或取向来确定或假定。通过这些步骤产生的双耳音频有时被称为“反应性双耳音频”或“具有头部跟踪的自适应双耳音频”。这样的双耳音频可以使用取决于听者的定位和取向的头部相关传递函数(HRTF)从常规单声道或音频信号生成。实现这一点的合适工具包括上面讨论的插件。

使用取决于用户相对于声音的表观源的定位和取向的双耳音频是特别现实的。因此，听力训练在提高用户在日常生活中使用的听力技能上特别有效。

空间化音频在与虚拟现实(virtual reality，VR)设置和训练环境组合时会提供特别的好处，如下面将进一步讨论的那样。

目标音频信号和背景音频信号至少部分重叠。由此将理解，信号被同时地或同步地提供给用户，使得每个信号内的至少一些声音被用户一起听到。有听力损失的用户可能会发现难以区分重叠音频信号的这种复杂布置。这种重叠的音频信号精确地反映了现实生活。因此，根据本发明的这一方面的听力训练是特别有效的。特别是，背景音频信号可以充当用户的干扰，要求他们更加努力地辨别和解释背景音频的“噪声”内的目标音频信号。

优选地，背景音频信号包括双耳音频并且其中背景音频信号限定两个或更多个声音，其相对于用户具有不同的表观源。在不同的表观位置处布置有多个声音的背景音频信号的使用是特别现实的。附加地或可替选地，背景音频信号和目标音频信号各自包括双耳音频，并且其中背景音频信号限定一个或多个声音，其每个与由目标音频信号限定的声音相比具有相对于用户的不同表观源。通过提供被定位在不同表观源处的多个声音，可以生成特别真实的“声景”(类似于景观)，该声景对应于用户在日常生活中可能遇到的情景。因此，听力训练对于改善用户在正常情况下的听力上特别有效。每个声音的双耳音频可以基于用户相对于表观源的定位和取向以上面讨论的方式来调整。

通过基于用户评估的结果向用户提供反馈，用户可以理解他们是否正确地识别了由目标音频信号赋予的信息。因此，用户被引导以提高他们的听力技能。例如，该方法可以包括以音频指示、视觉指示和/或触觉指示(例如用户设备的振动)的形式向用户提供反馈，以指示他们是否已经正确地理解了在目标音频内限定的信息。在进一步的示例中，反馈也可以部分地基于用户评估目标音频信号并且提供用户输入所需的时间。

如上所讨论的，目标音频信号限定了要由用户确定的信息。目标音频信号可以被配置成以任何合适的方式传达或赋予信息。例如，由目标音频信号限定的信息可以包括：训练环境内的目标位置；目标音频信号的内容，并且优选地是目标音频信号内语音的语言内容；和/或与第二目标音频信号的相似性和/或关系。

因此，目标音频信号可以直接通过信号的内容向用户提供信息——例如其中信息由目标音频信号内的特定声音和/或单词限定。可替选地，目标音频信号可以间接地向用户传达信息，在这种情况下，用户可能被要求解释目标音频信号以识别信息——例如要识别的位置，和/或与其它声音的相似性或关系。

在听力训练期间来自用户要求的动作或任务取决于由目标音频信号向用户传达信息的方式可以采取不同的形式。

例如，在由目标音频信号限定的信息包括训练环境内的目标位置的情况下，提供目标音频信号可以包括：在用户接口处接收一个或多个初步用户输入，每个初步用户输入对应于训练环境内的中间位置；以及基于训练环境内的中间位置和目标位置的相对定位改变目标音频信号的一个或多个属性。

取决于目标位置和中间位置之间的距离或其它关系，用户听到的声音将会变化。因此，用户可以在他们输入的中间位置变化时基于目标音频信号和/或背景音频信号中的变化来识别目标位置。因此，该方法可以包括将由用户输入的中间位置与目标位置进行比较，并基于该比较的结果来改变被提供给用户的音频信号。优选地，这种比较由用户设备执行，尽管这不是必要的并且可以代替地由单独的设备或系统执行。在识别了他们认为是目标位置之后，用户可以提供与他们对目标位置的评估相对应的用户输入。因此，在方法期间接收到的用户输入可以是用户基于目标音频信号中的变化而认为对应于目标位置的位置的指示。用户可以被理解为如果他们的用户输入对应于目标位置和/或在目标位置的预定距离内，则已经正确地识别了目标位置的定位。

因此在这种训练方法中，用户正在寻找或搜寻训练环境内的目标位置，该目标位置可以基于所提供的音频信号在视觉上对用户隐藏。这可以发展用户的声音检测、辨别和定位技能。训练环境可以是用户所处的物理环境，但更优选地是向用户显示的训练环境(如下面将进一步讨论的)。

这些寻找或搜寻训练方法旨在提高用户的声音检测听力技能。用户可以在认知上提高他们的注意力广度和空间工作记忆。因此，这些类型的方法旨在帮助用户在他们的日常生活中保持安全，并通过空间活动和诸如运动的任务提高他们的能力。

改变目标音频信号的一个或多个属性可以包括以下中的一个或多个：相对于背景音频信号改变目标音频信号的音量；改变目标音频信号的内容；改变目标音频信号的音高、持续时间、混响和/或节奏；或者在目标音频信号是双耳音频的情况下，改变目标音频信号相对于用户的表观源。在该最后示例中，目标音频信号的表观源可以随着中间位置被改变而相对于用户“平移(panned)”。在这种情况下，用户可以被要求在训练环境中识别目标位置，在该目标位置处，目标音频信号的表观源似乎是从直接位于用户前面的源发射的。例如，目标音频信号的表观源最初可以位于用户的右侧或左侧、用户的后面和/或距用户很远的距离处。基于中间输入，表观源可以被相对于用户移动，并且用户可以被要求尝试识别目标音频信号的表观源被定位在他们前面和/或靠近他们的位置。改变目标音频信号可以由用户设备(例如由包含在用户设备内的处理器)或外部设备或系统(例如与用户设备通信的远程或基于云的系统)执行。

目标位置可以是静态的或者可以在训练环境内改变定位。特别地，随着时间周期性地或连续地改变目标位置的定位可以增加听力训练的难度。

在进一步的优选示例中，由目标音频信号限定的信息可以对应于训练环境内的多个不同视觉部件内的目标视觉部件。因此，用户可以被要求响应于听到目标音频而从训练环境内“识别”或选择适当的视觉部件。因此该方法可以包括接收对应于用户认为涉及目标音频信号的内容的视觉部件的用户输入。

在优选示例中，视觉部件可以是训练环境内的按钮或显示对象。例如，训练环境可以包括咖啡馆、酒吧或餐厅内的菜单以及对应于由咖啡馆、酒吧或餐厅服务的菜单项的多个视觉部件。响应于听到包含客户订单的目标音频信号，用户可以被要求使用用户接口选择客户期望的一个或多个菜单项。可替选地，训练环境可以包括形成视觉部件的多个动物，而目标音频信号可以包括动物呼叫。响应于听到作为目标音频信号的一部分的动物呼叫，用户可能需要经由用户接口选择适当的动物。

因此在此类训练方法中，用户被委派任务以基于目标音频信号的内容来识别正确的视觉部件。这个识别任务要求用户将目标音频信号与背景音频信号区分开来，并选择与目标音频信号内的信息相对应的适当的视觉部件。这种方法有助于训练用户的噪声可懂度技能以及他们的工作记忆和注意力。

这些类型的识别任务旨在帮助发展用户的噪声可懂度听力技能。在认知上，用户可以发展他们的选择性注意力和专注力，提高他们专注于特定对象或声音的能力。特别是，用户可能会发现这些类型的方法改善了他们的社交互动，尤其是在拥挤或嘈杂的环境中。

在进一步的示例中，训练方法可以涉及用户“匹配”两个单独的目标音频信号。用户可以被要求评估两个目标音频信号听起来是否相似和/或在概念上是否相关。在优选示例中，该方法可以包括使用音频输出向用户循序地提供目标音频信号和第二目标音频信号，并接收与用户对目标音频信号和第二目标音频信号是否相似和/或相关的评估相对应的用户输入。这种方法可以发展用户的记忆以及他们区分声音的能力。

在此类示例中，该方法可以包括使用音频输出提供两个或更多个目标音频信号；并且，其中用户输入指示用户是否认为所述两个或更多个目标音频信号相似和/或相关。在特别优选的示例中，两个或更多个目标音频信号中的每一个可以响应于接收到对应于所述目标音频信号的初步用户输入而被提供。例如，在“瓦片匹配”训练方法中，用户可以提供与瓦片或其它可选择的视觉部件相关的初步输入，并且作为响应，可以向用户提供对应的目标音频信号。在多个瓦片共享相似的(例如相同的)目标音频信号和/或相关的目标音频信号的情况下，用户可以提供指示他们理解对应瓦片匹配的用户输入。

这些类型的匹配任务旨在帮助发展用户的辨别听力技能。在认知上，用户的短期或工作记忆可以被改善，包括用户的听觉工作记忆和他们的视觉空间短期记忆(特别是在上面讨论的“瓦片匹配”示例中)。因此，这些类型的方法旨在为用户的阅读技能、注意力和学习语言的能力提供好处。

因此，如上所讨论的，该方法可以涉及各种不同的任务，诸如搜寻/寻找、内容识别和匹配。在优选示例中，这些不同的任务形成执行听力训练的方法的替代模式。例如，方法可以涉及执行搜寻/寻找模式、识别模式和/或匹配模式中的一个或多个，其中每一个可以采取以上讨论的形式。在此类示例中，方法可以包括基于来自用户的输入和/或基于由用户在初步方法步骤中执行的标准化听力测试的结果来执行所述训练模式中的一个或多个。因此将认识到，随着听力训练模式的改变，用户所需的任务和/或由目标音频信号限定的信息的类型或形式被改变。

标准化听力测试可以包括以下一种或多种：阿姆斯特丹听觉残疾和障碍量表(AIADH)(‘Factors in subjective hearing disability’Kramer,Kapteyn,Festen,&Tobi,Audiology,Nov-Dec 1995；34(6):311-20)一系列多项选择题，其中用户评估他们的生活质量如何受到听力的影响；HearWHO(世界卫生组织，2018)，其中用户被要求聆听和识别背景白噪声中说出的数字或任何其它噪声中的语音测试；对听者能听到的最高频率的测试；纯音测听测试，其测试听者在不同频率范围内听到声音的阈值音量(诸如由ISO于2010-11发布的ISO 8253-1:2010中定义的方法)；或对用户的听力技能的任何其它合适测试。

在优选实施例中，该方法还包括分析在用户接口处接收到的用户输入，以确定由用户输入指示的用户评估是否对应于由目标音频信号限定的信息。因此，该方法可以涉及确定用户是否已正确地识别由目标音频信号传达的信息。优选地，被提供给用户的反馈基于此分析步骤的结果。该分析可由用户设备(例如由用户设备内的处理器)或由用户设备外部的进一步设备或系统(例如与用户设备通信的远程或基于云的系统)执行。

优选地，该方法涉及迭代地重复本文所讨论的方法步骤。因此，用户可以重复执行训练以提高他们的听力技能。因此用户可以在训练会话内多次执行听力训练，目标音频信号(并且优选地，要被确定的信息)和/或背景音频信号在方法步骤的每次迭代之间变化。因此，在优选示例中，该方法涉及与单个用户迭代地重复方法步骤——即，使得在不同迭代中接收到的用户输入是从同一用户接收的。

在优选示例中，该方法可以涉及在预定时间段(例如3分钟至30分钟的时间段)内、在预定次数的迭代(例如10、20、30或50次迭代)内迭代地重复该方法或迭代地重复该方法直到用户未能提供与由目标音频信号限定的信息正确对应的用户输入为止。在该方法被迭代地重复预定次数的情况下，预定次数可以在5到50的范围内，更优选地在10到30的范围内。

在此类示例中，方法可以进一步包括基于用户在用于听力训练的方法的多次迭代中的表现来向用户提供会话反馈。例如，会话反馈可以包括以下指示：接收到用户提供的与目标音频信号中限定的信息正确对应的用户输入的迭代总数；接收到正确用户输入的迭代比例；和/或由设备接收到正确用户输入的最高连续迭代次数(例如由用户提供的正确答案的最高条数)。会话反馈可以包括音频指示、视觉指示和/或触觉指示(例如用户设备的振动)或在以上讨论的每次迭代之后提供的反馈的其它特征中的任何一个。该会话反馈可以由用户设备(例如用户设备内的处理器)和/或由任何其它设备或系统(例如与用户设备通信的远程或基于云的系统)生成。

仍然更优选地，基于确定由用户输入指示的用户评估对应于由目标音频信号限定的信息，对于该方法的后续迭代可以增加听力训练的难度。因此，该步骤可以基于上面讨论的分析过程的结果。以这种方式，当用户成功地识别由目标音频信号传达的信息时，可以增加听力训练的难度。因此，随着用户听力的提高，用户的听力技能可以通过更有难度的训练来进一步发展。附加地或者可替选地，基于确定由用户输入指示的用户评估不对应于由目标音频信号限定的信息，对于该方法的后续迭代，可以降低听力训练的难度。改变听力训练的难度允许对用户的个性化训练，从而改善对于个人的训练效果。

换句话说，单个用户在听觉训练的不同迭代中的表现可以被用于适应未来训练的难度。自适应难度保持了用户的参与度，并随着时间的推移不断挑战和发展用户的听力技能。

该方法的后续迭代的难度可以响应于用户的每次成功和/或失败而变化。可替选地，难度可以响应于用户在方法的多次连续迭代中满足成功或不成功的用户输入的阈值而周期性地变化——例如，连续的预定次数的成功和/或失败、该方法的一系列连续迭代中的预定比例的成功和/或失败。将理解的是，“成功”是指其中从用户接收到的用户输入正确地对应于由目标音频信号限定的信息(即用户已经正确地评估或识别了目标音频信号内的信息)的迭代。相反，在“失败”中，用户输入将不对应于由目标音频信号限定的信息。因此，难度可以被自动调整，以满足用户的需要。

方法可以包括：在方法的多个连续迭代中，确定由正确地对应于由相应目标音频信号限定的信息的用户输入所指示的用户评估的比例；并且其中，如果正确的用户输入的比例大于预定的第一值，则对于一个或多个后续迭代增加听力训练的难度，或者如果正确的用户输入的比例小于预定的第二值，则对于一个或多个后续迭代降低听力训练的难度。因此，通过将用户的成功和失败的比例与预定阈值进行比较，难度可以被自动适应以反映用户的表现。

特别地，发明人已经认识到，当用户在大约85％的迭代中正确地评估目标音频信号内的信息(即成功率大约为85％而失败率大约为15％)时，用户的参与度显著增加。如果用户是不正确的显著更频繁，他们可能会感到沮丧，而如果用户是正确的显著更频繁，他们可能会发现训练无聊。

因此，使训练更有难度的预定第一值可以是95％或更大，并且更优选地是90％或更大。同样地，训练难度被降低到其以下的预定第二值可以是70％或更低，并且更优选地是80％或更低。因此，难度不被改变的成功率可以优选地在70％和95％之间，并且更优选地在80％和90％之间。

在优选示例中，听力训练可以涉及一系列训练会话或轮次，每个都涉及该方法的多个连续迭代。例如，每个训练会话可以包括在5到50个范围内的迭代，或更优选地10到30个迭代。与训练会话中的目标音频信号序列中的相应信息正确相关的用户评估的比例可以在这些训练会话中的每一个结束时被确定，并且可以基于该确定调整后续训练会话(即轮次)的难度。如上所述，在一些示例中，每个训练会话中的迭代次数可以是预定的但这不是必需的。例如，可替选地，训练会话中的迭代次数可以由用户在时间限制内能够完成多少次迭代来限定。

在特别优选的示例中，方法可以涉及基于包括多个迭代的先前训练会话中的用户的总体表现来设置基线难度的初步步骤。这可以使用如上所讨论的预定第一值和第二值来执行。在后续的训练会话中，难度可以基于训练会话内的结果根据此基线难度来调整或适配。因此，训练中每个迭代的难度将取决于用户在先前的训练会话中的表现以及他们在正在进行的(即同期或当前)训练会话中的方法的在前的迭代中的表现。

可替选地，在方法的每次迭代之后，可以针对前一组迭代(例如针对前20或30次迭代)计算由正确对应于由相应目标音频信号限定的信息的用户输入所指示的用户评估的比例。因此，迭代地计算方法的最近迭代的成功率，并在滚动的基础上调整难度。例如，难度所基于的迭代组可以包括至少10个先前迭代，更优选地至少15、20或30个先前迭代。

附加地或可替选地，方法可以包括执行标准化听力测试的初步步骤，并且其中基于标准化听力测试的结果：听力训练的难度被改变；目标音频信号和/或背景音频信号的内容和/或一个或多个属性被改变；和/或，听力训练的模式被改变。例如，目标音频信号和/或背景音频信号的频率和/或音量可以响应于针对用户的标准化听力测试的结果而变化。例如，目标音频信号和/或背景音频信号的频率和音量可以基于由用户执行的标准化测试的结果而变化。这可能有助于确保用户能够听到音频信号并且能够有效地训练他们的听力技能。同样，所执行的听力训练的模式可以取决于用户在标准化听力测试中的表现而变化，使得用户被要求执行不同的任务和/或目标音频信号向用户提供信息的形式变化。因此，使用本文讨论的训练方法，听力训练可以对特定的人进行个性化。

作为示例，标准化听力测试可以包括(如先前所讨论的)：阿姆斯特丹听觉残疾和障碍量表(AIADH)；HearWHO(世界卫生组织，2018)；对听者能听到的最高频率的测试；纯音测听测试，其测试听者在不同频率范围内听到声音的阈值音量(诸如由ISO于2010-11发布的ISO 8253-1:2010中定义的方法)；或对用户的听力技能的任何其它合适测试。在每种情况下，训练都可以针对用户进行个性化，从而更加有效。

存在各种各样的方法可以自动适应听力训练的难度。例如，增加听力训练的难度可以包括以下一个或多个：相对于背景音频信号降低目标音频信号的音量；相对于背景音频信号降低目标音频信号的质量(例如通过将带通、低通、高通滤波器应用于目标音频信号)；增加目标音频信号和背景音频信号之间的相似性(例如通过在背景音频信号中提供与目标音频信号频率相似的声音或从相对于用户的相似表观源发出的声音)；增加背景音频信号内的声音数量；其中目标音频信号包括双耳音频，在迭代过程期间改变目标音频信号内的声音的表观源相对于用户的定位，和/或在方法的连续迭代之间增加目标音频中一个或多个声音的定位的变化；在背景音频信号包括双耳音频的情况下，在迭代期间改变背景音频内的一个或多个声音的表观源相对于用户的定位和/或在方法的连续迭代之间增加背景音频信号内的相应声音的一个或多个表观源相对于用户的定位的变化；增加目标音频信号和/或背景音频信号的复杂性(例如，通过使用对于用户更难辨别或识别的声音，包括用户必须用相同的用户输入或多个用户输入识别的目标声音中的多条信息，减少目标音频信号的持续时间，增加目标音频信号中语音的说话速度)；应用用户必须提供用户输入的时间限制；和/或增加显示的训练环境的视觉复杂性。这些示例中的大多数使得用户更难于将目标音频信号与背景音频信号区分开和/或用户更难于辨别由目标音频信号限定的信息。确实，可以理解，诸如改变目标音频信号和背景音频的相对音量和音频质量以及增加信号的示例等同于改变被提供给用户的信噪比(signal to noise ratio，SNR)。然而，增加显示的训练环境的视觉复杂性对用户来说更分散注意力，要求他们在训练期间应用更多的专注或注意力。还将理解，听力训练的难度可以通过相反的方法(执行与上述一个或多个选项相反的方法)来降低。

优选地，可以在每次迭代和/或训练会话之后递增地调整难度。这可以反映随着用户继续进行该方法，用户的听力能力的逐渐或递增改善。这些增加或降低难度的递增步骤中的每一个可以涉及上文讨论的任何动作。在特别优选的示例中，改变被布置成使得在难度上产生渐进的进展。

在方法的一些实施例中，训练的难度——并且因此用户从背景音频信号的内容正确识别目标音频信号中的信息的能力——可以使用信噪比来量化。因此，信噪比可以被呈现给用户或专业人员，作为量化他们在听力训练中的表现的分数，并允许随时间跟踪表现。

上面讨论的听力训练的难度如何被改变的示例中的每一个对于上面讨论的所有实施例是共同的。然而，上面讨论的本发明的不同潜在模式中的每一个的难度可以以更具体的方式被改变。

例如，在上面讨论的“搜寻”/“寻找”方法中，通过基于中间位置和目标位置的相对定位来改变目标音频的难度属性数量可以被减少。因此，向用户提供的关于目标位置的定位的信息较少。附加地或可替选地，目标位置的定位可以如上所讨论地移动。附加地，或可替选地，用户可以被要求提供更精确的用户输入——即用户输入必须更接近目标位置——才能被认为正确地对应于目标位置。

在上面讨论的“识别”方法中，可以通过在每个目标音频信号内提供多个内容项来增加难度，用户必须用他们的用户输入正确地识别内容项的每一个。例如，在训练环境是咖啡馆、酒吧或餐厅的情况下，目标音频信号可以是“请给我一杯黑咖啡和一个羊角面包”，并且用户可以被要求提供与黑咖啡和羊角面包相关的输入(即选择与这两种产品相对应的视觉部件)。类似地可以使在方法内使用的不同的目标音频信号和可视部件更相似。例如，对于用户来说，区分“胡萝卜蛋糕”和“香菜蛋糕”可能比区分“胡萝卜蛋糕”和“柠檬蛋糕”更难。同样，客户可以从相对于用户的不同定位提供他们的订单——例如，与客户声音相对应的目标音频信号的表观源可以相对于用户从左到右或上下平移。客户说话的速度可以提高，或者客户可以提供更模糊的请求。随着难度的增加，背景目标信号内的额外分散注意力的声音可以包括在排队等候的一个或多个其他客户或街道交通(例如汽车、公共汽车或卡车)经过或咖啡馆内的其它声音。这些背景声音的表观定位也可以在听力训练的每个迭代内或在不同迭代之间变化。带通滤波器(例如被配置为将某些频率的音量减小到5kHz或3kHz的滤波器)可以被应用于目标音频信号，以模仿客户佩戴的面罩。

在上面讨论的“匹配”方法期间，可以通过使不对应的目标音频信号更加相似来增加难度。例如，如果用户被要求确定哪些目标音频信号是相同的，则可以使不同的目标音频信号在内容上更相似(例如涉及押韵的词，或相差较少的字母或音节的词)，或者包括在音高、混响、持续时间和/或节奏上更接近的音调。

在进一步的示例中，训练方法的难度可以由用户改变——即难度可以响应于从用户接收到输入而被修改。这种难度上的改变可以涉及上面讨论的任何改变。这些难度变化可以发生在方法步骤的连续迭代之间或发生在方法的单次迭代期间。例如，如果用户在方法的迭代期间努力将特定目标音频信号与背景音频信号区分开来，他们可能会提供输入，请求：重复目标音频信号；背景音频信号相对于目标音频信号被移除或减小音量；显示到目标音频信号的线索或提示和/或显示目标音频信号内的语音(例如使用字幕)。允许用户以这种方式操纵训练方法可以允许更容易地对用户个性化听力训练，并且可以帮助减少用户的挫折感并提高用户对听力训练的参与度。

优选地，用户设备包括显示器并且方法包括使用该显示器向用户显示训练环境。例如，训练环境可以包括图像、视频、增强现实和/或虚拟现实。向用户显示训练环境进一步增加了在听力训练期间对用户的感官输入。这增加了听力训练的真实感，因为用户在日常生活中通常会经历到视觉输入和听觉输入两者。因此，增加了听力训练的有效性。然而，这不是必需的并且在进一步的实施例中听力训练可以涉及仅向用户提供音频信号。

显示训练环境可以允许增加听力训练的复杂性。用户可以被要求将由目标音频信号限定的信息与在训练环境内显示的可视部件相关联。例如，用户可以被要求选择在训练环境内显示的位置或项目。

在同样优选的实施例中，训练环境包括虚拟现实(virtual reality，VR)和/或增强现实(augmented reality，AR)，并且其中该方法包括随着用户设备显示的训练环境的视角改变而改变目标音频信号和/或背景音频信号的双耳音频内的声音的表观源。

在训练环境包括虚拟现实(VR)的情况下，显示训练环境的视角可以随着用户移动他们的头部而被改变。虚拟现实系统跟踪用户正在看的位置，并相应地调整通过虚拟现实耳机显示给用户的视角。类似地，在训练环境包括增强现实的情况下，当显示增强现实训练环境的设备(例如智能手机、平板电脑或耳机)移动时，观察训练环境的视角被改变。因此，该设备执行双耳合成，实时实现声音相对于用户的视角的精确空间化。

目标音频信号和/或背景音频信号内的双耳音频可以通过使用头部相关传递函数(HRTF)基于视角的改变而改变，该头部相关传递函数(HRTF)取决于假定的用户的头部和声音的表观源之间的角度而改变。因此，在使用AR/VR训练环境的整个过程中，双耳目标音频信号和/或背景音频信号内声音的表观源可以被精确地空间化。因此，即使向用户显示的训练环境的视角改变，也可以保持空间化的音频。空间化的音频特别真实，并且精确地反映了用户在VR/AR听力训练之外的经历。

优选地，目标音频信号包括以下中的一个或多个：人类语音；动物呼叫；交通噪声；乐器；大自然声音；环境噪声；或合成的声音效果。然而，可以在目标音频信号内使用任何合适的声音效果或记录的声音。如上所述，目标音频信号优选地包括双耳音频，并且因此上面所讨论的声音相对于用户的表观定位可以依赖于呈现给用户的不同耳朵的不同信号。

优选地，背景音频包括以下中的一个或多个：人类语音；动物呼叫；交通噪声；乐器；天气噪声；水噪声；大自然声音；合成声音；环境噪声；白噪声；或合成的声音效果。在进一步的实施例中，任何合适的声音效果或记录的声音都可以在背景音频信号内使用。

更优选地，背景音频包括至少部分重叠的多个声音。以这种方式重叠的声音，使得多个不同的声音被同时提供给用户，创建真实的声景。背景音频信号的特别有价值的示例可以包括音量相对较低的较长的环境音和更大、更短更分散注意力的声音两者。例如，多个人类对话可以被组合以形成咖啡馆、酒吧或餐厅的一群人的噪声。而雨林可以通过将动物噪声与滴水和树叶在风中移动的声音重叠来模仿。对于用户来说，将目标音频信号与包括多个重叠声音的这种复杂音景区分开来并随后辨别由目标音频信号限定或传达的信息是特别的测试。这可以提高听力训练的有效性。确实，如上面所讨论的，在背景音频信号优选地包括双耳音频的情况下，重叠声音中的每一个可以具有相对于用户的不同的表观位置。用户周围的多个背景声音的这种布置是特别真实的，并且帮助改善训练结果。

使用重叠的声音或环境录音作为背景音频信号(并且尤其是双耳的声音和录音)提供了高度真实的声景，并且与使用随机噪声信号(诸如白噪声、粉红噪声或棕色噪声)相比提供了改进的训练结果。白噪声是在不同频率下具有相等强度的随机信号，使其具有恒定的功率谱密度。粉红噪声或1/f噪声是其功率谱密度与信号的频率成反比的随机噪声信号。棕色噪声(也称为红色噪声)是其功率谱密度与信号频率的平方成反比的随机噪声信号。虽然白色噪声、粉红色噪声和棕色的噪声是一致的，而且很容易产生，但它们并不反映自然环境，而是用户在日常生活中所经历的环境声音的不真实的替代。

优选地，目标音频信号和/或背景音频信号在人类听觉范围内。例如，目标音频信号和/或背景音频信号中的每一个可以包括20至20,000Hz之间的声音，并且更优选地在25Hz至15,000Hz之间，仍然更优选地在100至10,000Hz之间。尽管目标音频信号的音量可以相对于背景音频信号而改变(例如改变训练的难度)，优选地，背景音频信号比目标音频信号更安静，使得用户能够识别目标音频信号并确定由目标音频信号传达的信息。例如，背景音频信号可以处于相对于目标音频信号至少-6db且更优选地至少-12db的音量。

优选地，用户设备是智能用户设备，并且其中优选地，用户设备是智能用户设备，并且其中优选地，用户设备是智能手机、平板电脑、膝上型计算机、个人计算机或AR和/或VR系统。这些类型的个人设备很容易被用户使用，与通常是基于实验室的传统的系统相反。智能手机和平板电脑对用户来说特别便携和方便。而使用包括耳机的AR和/或VR系统可以提供更复杂的训练设置。然而，任何合适的用户设备都可以被使用。

优选地，其中，用户设备包括指向设备——用户接口，通过该用户接口允许用户向用户设备提供空间数据。例如，用户设备可以包括触摸屏、触控板、鼠标、鼠标垫、操纵杆或游戏手柄。然而，这不是必需的并且可以使用任何合适的输入设备。例如，输入设备可以是麦克风并且用户可以提供音频输入(例如人声输入)。

在特别优选的示例中，用户设备的显示器和用户接口可以被组合。例如，用户设备可以包括触摸屏。这是用户与用户设备交互的特别节省空间和直观的方法。

优选地，目标音频信号和背景音频信号经由头戴式耳机或连接到音频输出的替代音频输出设备被提供给用户。术语头戴式耳机将被理解为涵盖耳机、耳塞、耳麦以及佩戴在用户头部上的任何其它合适形式的声音输出设备。头戴式耳机提供了一个将双耳音频的分离的左音频通道和右音频通道直接提供给用户的对应耳朵的特别方便的方法。然而在可替选的实施例中，该方法可以包括经由扬声器系统向用户提供目标音频信号和背景音频，该扬声器系统被布置为向用户的对应耳朵提供双耳音频的分离的右音频通道和左音频通道。

根据本发明的再一方面，提供了一种用包括用户接口和音频输出的用户设备执行听力训练的计算机实现的方法，该方法包括：使用音频输出提供目标音频信号，该目标音频信号限定要由用户确定的信息；其中，目标音频信号包括双耳音频；在用户接口处接收用户输入，该用户输入与目标音频信号所限定的信息的用户确定相对应；以及基于用户确定的结果向用户提供反馈。

这种方法再次提供了训练用户听力的真实且有效的方法。在目标音频信号中使用双耳音频模仿用户在日常生活中经历的声音和情景。

根据本发明的这个方面的方法可以包括上面参考本发明的先前方面讨论的任何特征并且提供对应的好处，包括上面讨论的可选的和优选的特征。例如，尽管根据本发明的这个方面背景音频信号不是必需的，但在优选实施例中提供了背景音频信号。这提高了听力训练的真实感和有效性，因为用户必须在解释由目标音频信号所赋予的信息之前将目标音频信号与背景音频区分开来。背景音频信号可以包括双耳音频或常规单声道和/或立体声音频。

根据本发明的再一个方面，提供了一种包括用户接口和音频输出的用户设备，该用户设备被配置为执行根据本发明先前任何一个方面的听力训练方法。

用户设备可以包括上面参考本发明的先前方面所讨论的物理部件中的任何一个，并且可以被配置为执行上面所讨论的优选或可选的方法步骤中的任一个。这样的用户设备提供与上面讨论的示例对应的好处。

根据本发明的再一个方面，提供了一种存储指令的非暂时性计算机可读介质，该指令在由处理器读取时，致使用户设备执行根据上面讨论的任何方法的听力训练方法。

指令在由处理器读取时可以致使用户设备执行上面讨论的优选或可选方法步骤中的任一个。这样的指令提供了与上面讨论的示例对应的好处。

附图说明

现在将参考以下附图讨论本发明的具体示例：

图1示意性地示出了包括根据本发明的用户设备的系统；

图2示出了说明根据本发明的方法的流程图；

图3a、图3b和图3c示意性地示出了执行根据本发明的方法的用户设备；

图4示意性地示出了执行根据本发明的方法的用户设备；以及，

图5示意性地示出了执行根据本发明的方法的用户设备。

图6示出了说明根据本发明的方法的流程图。

具体实施方式

图1示意性地示出包括用户设备10的系统1，用户设备10被配置为执行用于听力训练的方法。用户设备10可以是智能用户设备，例如智能手机、平板电脑、膝上型计算机或个人计算机。用户设备10包括处理器11、存储器12(即计算机可读存储介质)、用户接口13、显示器14和音频输出15。在实践中，用户设备可以包括未在此示意性附图中示出的进一步特征。

处理器11被配置为执行记录在用户设备10的存储器12中的指令。用户接口13被配置为从用户接收输入(即接收用户输入)。显示器14被配置为向用户显示训练环境。用户设备10可以包括提供用户接口13和显示器14两者的触摸屏。可替选地，用户接口13和显示器14可以是单独的部件。例如，用户接口13可以包括触摸屏、触控板、鼠标、鼠标垫、操纵杆、游戏手柄或任何其它合适的输入设备。

用户设备10被配置为经由音频输出15连接到诸如头戴式耳机21或扬声器22的外部音频输出设备。用户设备10与头戴式耳机21和/或扬声器22之间的连接21A、22A可以是有线或无线的(例如经由蓝牙(RTM)、Wi-Fi(RTM)或任何其它合适的替代无线通信协议)。用户设备10可以使用音频输出15和这些连接21A、22A来提供音频信号，这些音频信号然后被头戴式耳机21或扬声器22转换为音频(即声音)。

特别地，用户设备10被配置为通过头戴式耳机21或扬声器22向用户提供双耳音频。双耳音频包括左音频通道和右音频通道，其中右音频通道和左音频通道之间的差异基于听者耳朵之间的假定关系(例如由头部相关传递函数(HRTF)定义)。用户设备10可以提供已经被双耳记录(即使用被定位在模型头部或人的头部的任一侧上的一对麦克风记录)或已经使用头部相关传递函数从样本信号中生成的双耳音频。

图1中所示的用户设备10适于在由图2的流程图说明的方法内使用。

在步骤s101中，用户设备10使用音频输出提供至少目标音频信号。优选地，用户设备10还提供与目标音频信号至少部分地重叠的背景音频信号(例如使得目标音频和背景音频内的声音的至少一些被同时提供)。目标音频信号限定要由用户确定的信息。目标音频信号和背景音频信号中的至少一个包括双耳音频。

在训练期间，目标音频信号和任何背景音频信号由用户设备10的音频输出15(例如经由头戴式耳机21或扬声器22)提供给用户。双耳音频可以是双耳记录的和/或使用头部相关传递函数从样本信号生成的。可选地，在该步骤期间，双耳音频可以被适配或取决于用户的头部和双耳音频内的声音的表观源之间的相对定位和取向。目标音频信号和/或背景音频信号内的一个或多个声音的表观源可以取决于用户的头部或用户设备相对于声音的表观源的定位和取向而被改变。为了实现这一点，可以跟踪用户头部的定位和取向。

在听到目标音频之后，用户将尝试辨别由目标音频限定的信息。在背景音频存在的情况下，用户将被要求首先将目标音频与背景音频区分开来。用户随后使用用户接口13向用户设备10提供对应于他们对由目标音频传达或赋予的信息的理解或评估的用户输入。因此，在步骤s102中，用户设备10接收与对目标音频信号所限定的信息的用户评估相对应的用户输入。

在接收到用户输入(s102)之后，用户设备10基于由步骤s103中的用户输入指示的用户评估向用户提供反馈。因此，用户接收对他们理解和解释从用户设备10提供的音频的能力的评估。因此，用户能够训练和改善他们的听力。

为了在步骤s103中提供反馈，可以分析在用户接口处接收到的用户输入，以确定用户评估是否对应于由目标音频信号限定的信息。这种分析可以由用户设备10的处理器11或任何其它合适的处理器来执行。如果由用户输入指示的用户评估正确地对应于在目标音频信号中限定的信息(即用户已经正确地识别了由目标音频传达的信息)，则用户设备10可以接收正反馈。否则，用户设备10可以提供负反馈。该反馈可以采取诸如用户设备10的显示器14上显示的消息的视觉指示、诸如由用户设备10的音频输出15提供的声音效果或口头消息的音频指示和/或诸如触觉指示的任何其它合适的指示的形式，诸如可以使用用户设备10内的振动单元创建的振动。

在优选示例中，方法步骤s101、s102、s103被迭代地重复，以允许用户继续训练和发展他们的听力技能。听力训练的难度可以基于用户(即单个用户)在方法的先前迭代中的成功和/或失败来逐步调整。附加地或可替选地，难度可以在用户输入之后被调整。附加地或可替选地，听力训练的难度可以基于对用户执行标准化听力测试(例如阿姆斯特丹量表，HearWHO或用户可以听到的最高频率的测试)的初步步骤的结果。用户设备10可以被配置为经由音频输出15实施这样的标准化听力测试。然而，在其它示例中，标准化听力测试的结果可由用户设备10从外部设备或系统接收。在上面的发明内容部分讨论了如何改变或操纵不同训练方法的难度的示例。

现在将参考示意性图3至图5讨论用用户设备30、40、50执行的用于听力训练的方法的具体示例。这些示例中的每一个合并了上文参考图2讨论的步骤。

用户设备30、40、50是包括触摸屏31、41、51的智能手机，其提供显示器和用户接口两者。用户设备30、40、50包括音频输出(未示出)，其被配置为向用户提供目标音频信号和/或背景音频信号(例如经由头戴式耳机或扬声器阵列)。在每种情况下，目标音频信号和背景音频信号中的一个或两者可以包括双耳音频。此外，用户设备30、40、50可以共享上文参考图1和图2讨论的用户设备10的任何进一步特征。用户与用户设备30、40、50之间的交互在图3a至图3c和图4中通过手图标示出，并且在图5中通过阴影线视觉部件示出。

图3a和图3b示意性地示出了用用户设备30执行的“搜寻”或“寻找”听力训练方法的连续步骤。用户设备30向使用触摸屏31的用户显示训练环境32。在训练环境32内限定了在听力训练开始时对用户来说未知的隐藏目标位置33。

图3a说明了可以如何基于中间位置L和目标位置33之间的距离d改变由用户设备30通过用户设备30的音频输出提供的目标音频信号。然而，图3b示出了随着用户寻找目标位置33用户输入通过训练环境32的移动m。

用户设备30在整个方法中向用户提供目标音频信号以及优选地提供背景音频。被提供给用户的音频信号取决于在触摸屏31处从用户接收到的初步用户输入，这些初步用户输入对应于训练环境内的中间位置L(如图3a至图3c中的手图标所示)。特别地，目标音频信号的一个或多个属性取决于中间位置L相对于隐藏目标位置33的定位而改变。因此，目标音频信号传达关于训练环境32内的目标位置33的位置的信息。

具体地，如图3a所示，用户设备30在触摸屏31处接收与训练环境32内的一系列中间位置L₁、L₂、L₃、L₄相对应的一系列初步用户输入。例如，用户可以在中间位置L₁、L₂、L₃、L₄中的每一个处在触摸屏31上点击或拖动他们的手指。换句话说，随着用户试图识别目标位置33，由每个初步用户输入提供的中间位置L₁、L₂、L₃、L₄改变，如箭头m₁、m₂、m₃、m₄所指示的。

响应于每个初步用户输入，用户设备30计算中间位置L₁、L₂、L₃、L₄和目标位置33之间的距离d₁、d₂、d₃、d₄并相应地改变目标音频信号的属性。例如，目标音频信号的音量可以被改变(例如目标音频可以更靠近目标位置33时更大声，或更靠近目标位置33时更安静)。附加地或可替选地，目标音频的内容、音高、持续时间、混响或节奏可以被改变。例如，在中间位置L更接近目标位置33的情况下，目标音频信号可以在音高上更高或可以具有更高的节奏。附加地或可替选地，在目标音频信号是双耳的情况下，目标音频信号的表观源可以相对于用户而改变。

如图3b所示，在输入与中间位置L₁、L₂、L₃、L₄相对应的一系列初步用户输入并且听到所产生的目标音频的变化之后，用户能够评估或确定目标位置33所定位的位置。用户然后可以提供与他们对训练环境31内的目标位置33的定位L*的评估相对应的用户输入(例如通过双击用户设备30的触摸屏31)。

随后，用户设备30可以确定或分析用户输入所指示的位置L*是否对应于目标位置33，并且基于此分析的结果向用户提供反馈。如图3b所示，由用户输入指示的位置L*精确到目标位置33(例如是在距目标位置的预定距离内)，并且因此用户可以被提供有正反馈。然而，在用户输入指示远离目标位置33的位置的情况下，用户可接收负反馈。这种反馈有助于用户提高他们的听力技能。该反馈还可以基于用户识别目标位置所需的中间位置的时间或数量。

适合在这种“搜寻”/“寻找”方法中使用的特定目标音频信号包括动物呼叫或声音(诸如鸟的叫声)，其可以在森林的背景音频信号声景中被听到，其中可能包括风吹树叶、流水和其它动物的叫声的单独重叠声。类似地，目标音频可以是在繁忙的厨房或市场的背景音频和声音中听到的煎锅(或其它烹饪设备)的声音。

将看到，图3a和图3b示出了由一系列对应的离散用户输入指示的一系列离散中间位置L₁、L₂、L₃、L₄。然而这不是必需的并且用户可以输入连续范围的中间位置(例如通过将他们的手指拖过触摸屏31)。在这种情况下，被提供给用户的目标音频信号可以连续变化。

此外，在图3a和图3b中，目标位置33的定位是静态的，但是在进一步的示例中，隐藏目标位置33的定位可以周期性地或连续地变化。

尽管如以上关于图3a和图3b所讨论的，目标音频信号的一个或多个属性可以取决于每个中间位置L₁、L₂、L₃、L₄和目标位置33之间的距离的量值而变化，但这不是必需的。相反，如图3c所示，目标音频信号的属性可以取决于由用户输入指示的中间位置L₁和目标位置33之间的垂直距离v₁、水平距离h₁和/或角度θ₁而变化。

在一些示例中，目标音频的不同属性可以基于这些不同坐标中的每一个而变化，通过这些不同坐标可以量化中间位置L和目标位置33的相对定位。例如，目标音频信号相对于背景音频信号的音量可以取决于中间位置L和目标位置33之间的垂直距离而变化，而目标音频信号内的双耳音频的表观源可以取决于中间位置L和目标位置33之间的水平距离而相对用户移动。在这个示例中，用户可以被要求识别目标音频最响亮的位置，以及目标音频似乎来自直接在他们前面的源的位置。

图4示意性地示出了用用户设备40(智能手机)执行的用于听力训练的方法，其中用户必须“识别”目标音频信号的内容。

如在图3a到图3c中，用户设备40使用触摸屏40向用户显示训练环境42。图4所示的听力训练涉及识别客户在咖啡馆、酒吧或餐厅下的订单。由用户设备40显示的训练环境42被划分成两个部分，客户部分42a，其中可以显示下订单的客户；以及菜单部分42b，其中显示与咖啡馆、酒吧或餐厅的菜单上的不同产品相对应的多个可选择的视觉部件43。

当客户C由用户设备40显示时，用户设备40向用户提供与客户C的订单相对应的目标音频信号(例如经由头戴式耳机)。例如，目标音频信号可以包括“请给我一杯黑咖啡”或“我可以要一片苹果蛋糕吗”的语音。因此，用户被要求识别客户C所期望的产品，并选择对应的视觉部件43。例如，用户可以通过敲击用户设备40的触摸屏来提供对应于所述视觉部件的用户输入，如手图标44所示。因此，由目标音频信号限定的信息是目标音频内的人类语音的语言内容，而用户输入是用户认为对应于目标音频信号的此内容的视觉部件43的选择。

已经接收到用户输入，用户设备40可以基于该用户输入向用户提供反馈，以便帮助他们提高他们的听力技能。事先，用户设备40(或另一设备或系统)可以确定由用户输入指示的可视部件43是否正确地对应于目标音频信号的内容。该反馈还可以基于用户提供其用户输入的速度。

用户设备40可以提供诸如酒吧、咖啡馆和餐厅的环境噪声的背景音频信号，其可以与目标音频信号同时被提供——即，使得背景音频信号和目标音频信号重叠。如先前讨论的，如果背景音频信号包括多个重叠的声音，诸如多个人类对话、咖啡机的噪声、刀具和餐具和/或交通噪声，则可以创建特别逼真的声景。背景音频信号和目标音频信号中的至少一个包括双耳音频。

在上面讨论的示例中，训练环境显示咖啡馆、酒吧或餐厅内的客户，并且用户必须识别的目标音频信号的内容是人类语音的语言内容(即客户所说的实际单词)。然而，这不是必需的并且在其它示例中目标音频信号和训练环境可以采取其它形式。例如，训练环境可以显示农场，而目标音频信号包括农场动物的噪声。在这种情况下，用户可以被要求从农场动物的呼叫中识别由用户设备40显示的适当的农场动物。在这样的示例中，背景音频可能包括在农场听到的典型声音。

图5示意性地示出了用用户设备50(智能手机)执行的用于听力训练的方法，其中用户必须将不同的目标音频信号“匹配”在一起。

用户设备50使用其触摸屏51显示包括可以由用户选择的多个视觉部件53的训练环境52。具体地，如图5所示，可选择的视觉部件53采用瓦片的形式，用户可以通过敲击每个瓦片上的触摸屏51来选择该瓦片。以这种方式，用户向用户设备50提供与视觉部件53相对应的初步用户输入。

例如，用户设备50可以接收对应于第一可视部件53a的第一初步用户输入(图5中示出阴影线)并经由其音频输出(未示出)向用户提供对应于第一可视组件53a的第一目标音频信号。随后，用户设备50可以接收对应于第二可视部件53b的第二初步用户输入(图5中示出为阴影线)并经由其音频输出(未示出)向用户提供对应于第二可视部件53b的第二目标音频信号。已经听到两个目标音频信号后，用户被要求评估第一目标音频信号和第二目标音频信号是否相似和/或相关——即对应于所选视觉部件53a、53b的目标音频信号是否匹配。例如，匹配的目标音频信号可以是相同的和/或共享相似或相同的音频属性，诸如音高、节奏、持续时间、音色和/或混响。可替选地，匹配的目标音频信号可以在概念上被链接——例如第一目标音频信号可以包括说出单词“狗”的人类语音，而第二目标音频信号可以包括狗的吠叫。可替选地或附加地，在目标音频信号是双耳的情况下，用户可以被要求确定目标音频信号是否共享相同的表观源——即目标音频信号是否相对于用户类似地被空间化。以这种方式，由目标音频信号赋予用户的信息是它们与其它目标音频信号的关系和/或相似性。

如果用户认为对应于两个或更多个不同视觉部件53的目标音频信号是相似的和/或相关的(例如图5中所示的第一视觉部件53a和第二视觉部件53b)，则它们可以提供与所述不同的视觉部件53相对应的用户输入。例如，用户可以“双击”训练环境中所示的所述视觉部件53中的每一个和/或将所述视觉部件53中的一个“拖动”到另一个视觉部件53。

在接收到用户认为通过它们对应的目标音频信号被链接的视觉部件的用户输入之后，用户设备50可以基于此用户输入向用户提供反馈。例如，如果用户已经正确识别共享目标音频信号(其是相关的和/或相似的)的视觉部件，则用户可以接收到正反馈。

除了目标音频信号之外，用户设备50可以经由音频输出(未示出)向用户提供背景音频信号。在这些方法中，用户被要求在可以开始比较不同的目标音频信号之前将目标音频与背景音频区分开来。目标音频信号和背景音频信号中的一个或两个可以包括双耳音频。

在上面对图5的讨论之后，将理解使用匹配技术可以采用各种类似的训练方法，并且训练方法不限于图5所示的“瓦片-匹配”方法。

已经参考图3到图5分别讨论了上文所讨论的用于执行听力训练的方法和用户设备。然而，将理解，这些技术可以在更广泛的方法内形成替代的训练模式。例如，用户设备可以被配置为响应于用户输入、来自外部系统的输入和/或响应于执行标准化听力测试而执行关于图3、图4或图5所讨论的方法中的任何方法。例如，标准化听力测试可以识别将对用户特别有益的特定的听力训练方法，并且用户设备然后可以被配置为执行所述听力训练方法。以这种方式，听力训练可以很容易地对用户进行个性化。

此外，尽管上面关于图3至图5讨论的技术各自涉及具有触摸屏显示器31、41、51的智能手机(即用户设备30、40、50)，但这不是必需的。在进一步的示例中，可以使用替代的用户设备，包括用于提供AR和VR的设备和系统。同样，在本发明的一些示例中，听力训练可以不涉及训练环境的显示。相反，训练方法可以涉及使用物理训练环境或仅涉及音频信号而没有视觉训练环境。

以上讨论的所有设备和系统的部件可以通过有线或无线连接来连接。

图6示出了一个流程图，该流程图说明了可以如何调整听力训练的难度，以反映用户的听力能力，并随着用户听力被改善而增加难度。该过程可以使用图1所示的用户设备10来执行并且可以涉及参考图3到图5所描述的任何任务。

在步骤s201中，该方法开始。在步骤s202中，针对用户(例如单个用户)完成包括听力训练方法的多个迭代的听力训练会话或一轮听力训练。以这种方式重复的听力训练方法可以是上面参考图2描述的方法。训练会话可以包括至少10次迭代的过程，其中向用户提供目标音频信号和背景音频信号，接收用户输入并分析用户输入以确定用户输入，以确定由用户输入指示的用户评估是否对应于由目标音频信号限定的信息。

随后，在步骤s203中，该方法涉及在整个训练会话中确定由正确对应于由相应目标音频信号限定的信息的用户输入所指示的用户评估的比例。可选地，基于该确定的结果向用户提供与用户在听力训练会话内的表现相关的反馈。例如，可以向用户提供原始百分比或评级(例如若干星星)形式的反馈分数。

基于在步骤s203中这种确定的结果，训练的难度在步骤s204到s210中如上面所讨论的那样被适配或调整。在听力训练的难度的任何调整之后，新的听力训练会话(即新一轮的听力训练)可以在步骤s211中开始并且该过程可以重复。

难度的调整在步骤s204中开始，其中确定比例(例如其中用户成功的迭代的比例)是否大于第一阈值。如果该比例大于该第一阈值，则训练被视为太容易并且在步骤s205中增加用于未来训练会话的难度。该第一阈值可以在85％至100％的范围内，并且优选地为90％。

如果比例小于第一阈值，则该方法进行到步骤s206，其中，确定该比例是否在第一阈值到第二阈值的范围内。第二阈值可以在50至85％的范围内，并且优选地为80％。如果该比例在该范围内，则训练被判断为适当困难，并且在步骤s207中将用于未来训练会话的难度等级保持在其现有水平。否则方法进行到步骤s208。

在步骤s208中，确定该比例是否低于第二阈值。如果是，则在步骤s209中，听力训练被判断为难度太大并且未来训练会话的难度被降低。否则在步骤s210中，难度被保持在其现有水平。

应该注意，在步骤s208中，确定比例是否低于第二阈值的步骤是可选的并且是冗余的，因为它是步骤s204和步骤s206中的决定未被满足的固有结果。尽管如此，主动执行步骤提供了冗余，并且可以避免计算过程中的错误或问题。

因此，在上面图6所示的方法中，涉及在该方法的多个连续迭代上响应于用户满足成功或不成功的用户输入的预定阈值而周期性地改变听力训练的难度。在正确的用户输入的比例大于预定的第一阈值的情况下，对于听力训练过程的后续迭代减小听力训练的难度，或者如果正确的用户输入的比例小于预定的第二阈值，则对于听力训练过程的一个或多个后续迭代增加听力训练的难度。

可选地，上面讨论的过程被用于为后续的训练会话产生基线难度，而在后续的训练会话期间，难度可以基于用户在训练会话内的听力训练方法的迭代期间的表现而从这个基线等级变化。因此，基于之前的训练会话和正在进行或当前训练会话中方法的迭代来调整难度。

在第一阈值和第二阈值分别为90％和80％的情况下，已经实现了改进的训练结果，使得该方法连续地将用户的成功率保持在80％和90％的范围内(即大约85％)。这向用户提供了足够有难度的挑战，以便他们不会感到无聊，但不会难度过大以至于用户感到沮丧。因此，实现了高用户参与度，并且用户很可能继续进行听力训练并显著改善他们的听力。

因此将理解的是，图6所示的方法使听力方法的难度可以递增地增加或减少，以反映用户听力技能的改变。难度的改变可以涉及对目标音频信号、背景音频信号、训练环境和时间尺度的任何改变，用户必须通过这些改变作出响应，如上文在发明内容中所讨论的。因此，将理解的是，可以由本领域技术人员根据所期望的难度进展来发展和预定义训练会话之间的难度的各种各样的渐进改变。例如，可以通过相对于背景音频信号递增地减小目标音频信号的音量或质量，或者通过逐渐增加背景音频信号内的声音的数量和/或改变它们的表观定位来逐渐增加难度。同样，这些改变可以被组合应用，或者根据需要替代地应用。

重要的是要注意，虽然已经在功能齐全的数据处理系统的背景下描述了本发明，但本领域的普通技术人员将理解，本发明的过程能够以指令的计算机可读介质的形式和多种形式分布，并且无论实际用于进行分布的特定类型的信号承载介质如何，本发明都同样适用。

通常，本文中描述的或图中附图中示出的功能性的任一个可以使用软件、固件(例如，固定逻辑电路)、可编程或非可编程硬件、或这些实施方式的组合来实施。本文所用的术语“部件”或“功能”通常表示软件、固件、硬件或这些的组合。例如，在软件实施方式的情况下，术语“部件”或“功能”可以指当在一个或多个处理设备上执行时执行指定任务的程序代码。本文的附图中图示的将部件和功能分离成不同单元可以反映这种软件和/或硬件的实际物理分组和分配，或者可以对应于由单个软件程序和/或硬件单元执行的不同任务的概念分配。因此，本文描述的各种处理可以以任何组合在相同处理器或不同处理器上实施。例如，用户输入的分析、响应于用户输入的反馈的生成、目标音频信号或背景音频信号的改变和/或上面讨论的任何其它过程可以由用户设备内的处理器或外部设备或系统(例如与用户设备通信的远程或基于云的系统)中的处理器执行。

如本文所述的方法和过程可以体现为代码(例如，软件代码)和/或数据。这种代码和数据可以被存储在一个或多个计算机可读介质上，其可以包括能够存储代码和/或数据以供计算机系统使用的任何设备或介质。当计算机系统读取并执行存储在计算机可读介质上的代码和/或数据时，计算机系统执行被体现为存储在计算机可读存储介质内的数据结构和代码的方法。在某些实施例中，本文描述的方法和过程的步骤中的一个或多个可以由处理器(例如，计算机系统或数据存储系统的处理器)执行。本领域技术人员应当理解，计算机可读介质包括可被用于存储信息(诸如计算机可读指令、数据结构、程序模块和由计算系统/环境使用的其它数据)的可移动和不可移动结构/设备。计算机可读介质包括但不限于诸如随机存取存储器(RAM、DRAM、SRAM)的易失性存储器；以及诸如闪存、各种只读存储器(ROM、PROM、EPROM、EEPROM)、磁性和铁磁/铁电存储器(MRAM、FeRAM)以及磁和光存储设备(硬盘驱动器、磁带、CD、DVD)等的非易失性存储器；网络设备；或者现在已知或以后发展的能够存储计算机可读信息/数据的其它介质。计算机可读介质不应被解释或说明为包括任何传播信号。

尽管已经描述了本公开的特定实施例，但是各种修改、改变、替代构造和等同物也被涵盖在本公开的范围内。本公开的实施例不限于在某些特定数据处理环境内操作，而是自由地在多个数据处理环境内操作。此外，尽管已经使用特定的一系列事务和步骤描述了本公开的实施例，但是对于本领域技术人员应该显而易见的是，本公开的范围不限于所描述的一系列事务和步骤。可以单独地或联合地使用上述实施例的各种特征和方面。

说明书和附图相应地被视为说明性的而不是限制性的意义。然而，将显而易见的是，可以在不背离权利要求中所阐述的更广泛的精神和范围的情况下对其进行添加、删减、删除和其它修改和改变。因此，尽管已经描述了具体的公开实施例，但这些并不旨在是限制性的。各种修改和等同物在以下权利要求的范围内。修改和变型可以包括所公开的特征的任何相关组合。

Claims

1.一种用包括用户接口和音频输出的用户设备执行听力训练的计算机实现的方法，所述方法包括：

使用所述音频输出提供背景音频信号和目标音频信号，所述目标音频信号至少部分地与所述背景音频信号重叠，并且所述目标音频信号限定要由用户确定的信息；

其中，所述背景音频信号和所述目标音频信号中的一个或两个包括双耳音频；

在所述用户接口处接收与由所述目标音频信号限定的信息的用户评估相对应的用户输入；以及

基于由所述用户输入指示的用户评估向所述用户提供反馈。

2.根据权利要求1所述的计算机实现的方法，其中，由所述目标音频信号限定的信息包括：

训练环境中的目标位置；

所述目标音频信号的内容以及优选地所述目标音频信号内的语音的语言内容；和/或，

与第二目标音频信号的相似性和/或关系。

3.根据任一前述权利要求所述的计算机实现的方法，其中，由所述目标音频信号限定的信息包括训练环境内的目标位置，并且其中，提供所述目标音频信号包括：

在所述用户接口处接收一个或多个初步用户输入，每个初步用户输入对应于所述训练环境内的中间位置；以及

基于所述训练环境内的所述中间位置和所述目标位置的相对定位来改变所述目标音频信号的一个或多个属性；

其中，优选地改变所述目标音频信号的一个或多个属性包括以下中的一个或多个：

相对于所述背景音频信号改变所述目标音频信号的音量；

改变所述目标音频信号的内容；

改变所述目标音频信号的音高、持续时间、混响和/或节奏；或，

在所述目标音频信号是双耳音频信号的情况下，改变所述目标音频信号相对于所述用户的表观源。

4.根据权利要求1或权利要求2所述的计算机实现的方法，其中，由所述目标音频信号限定的信息对应于训练环境内的多个不同视觉部件内的目标视觉部件。

5.根据权利要求1或权利要求2所述的计算机实现的方法，其中，所述方法包括：

使用所述音频输出提供两个或更多个目标音频信号；并且，

其中，所述用户输入指示所述用户是否认为所述两个或更多个目标音频信号是相似的和/或相关的。

6.根据任一前述权利要求所述的计算机实现的方法，还包括分析在所述用户接口处接收到的所述用户输入，以确定由所述用户输入指示的所述用户评估是否对应于由所述目标音频信号限定的信息。

7.根据任一前述权利要求所述的计算机实现的方法，包括迭代地重复方法步骤。

8.根据权利要求7所述的计算机实现的方法，其中以下两者中的任一者：

基于确定由所述用户输入指示的用户评估与由所述目标音频信号限定的信息相对应，增加所述方法的后续迭代的听力训练的难度；或，

基于确定由所述用户输入指示的用户评估与由所述目标音频信号限定的信息不对应，降低所述方法的后续迭代的听力训练的难度。

9.根据权利要求7或权利要求8所述的计算机实现的方法，其中，响应于用户在所述方法的多个连续迭代中满足成功或不成功的用户输入的预定阈值而周期性地改变所述听力训练的难度。

10.根据权利要求7至9中任一项所述的计算机实现的方法，其中，所述方法还包括：

在所述方法的多个连续迭代中确定由所述用户输入指示的用户评估中正确地对应于由相应的目标音频信号限定的信息的比例；

并且其中，如果正确的用户输入的比例大于预定的第一值，则针对一个或多个后续迭代降低所述听力训练的难度，或者如果正确的用户输入的比例小于预定的第二值，则针对一个或多个后续迭代增加所述听力训练的难度。

11.根据任一前述权利要求所述的计算机实现的方法，包括执行标准化听力测试的初步步骤；并且，

其中，基于所述标准化听力测试的结果：

所述听力训练的难度被改变；

所述目标音频信号和/或所述背景音频信号的内容和/或一个或多个属性被改变；和/或，

听力训练的模式被改变。

12.根据任一前述权利要求所述的计算机实现的方法，其中，所述用户设备包括显示器，并且其中所述方法包括向使用所述显示器的用户显示训练环境；

并且其中优选地，所述训练环境包括：图像、视频、增强现实和/或虚拟现实。

13.根据任一前述权利要求所述的计算机实现的方法，其中，所述目标音频信号包括以下中的一个或多个：人类语音；动物呼叫；交通噪声；乐器；大自然声音；环境噪声；或合成的声音效果。

14.根据任一前述权利要求所述的计算机实现的方法，其中，所述背景音频信号包括以下中的一个或多个：人类语音；动物呼叫；交通噪声；乐器；天气噪声；水噪声；大自然声音；合成的声音；环境噪声；白噪声；或合成的声音效果。

15.根据任一前述权利要求所述的计算机实现的方法，其中，所述背景音频信号包括至少部分重叠的多个声音。

16.根据任一前述权利要求所述的计算机实现的方法，其中，所述用户设备是智能用户设备，并且其中优选地所述用户设备是智能手机、平板电脑、膝上型计算机、个人计算机或AR系统和/或VR系统。

17.一种用包括用户接口和音频输出的用户设备执行听力训练的计算机实现的方法，所述方法包括：

使用所述音频输出提供目标音频信号，所述目标音频信号限定要由用户确定的信息；

其中，所述目标音频信号包括双耳音频；

在所述用户接口处接收与由所述目标音频信号限定的信息的用户确定相对应的用户输入；以及

基于所述用户确定的结果向所述用户提供反馈。

18.一种包括用户接口和音频输出的用户设备，所述用户设备被配置为执行根据前述权利要求中任一项所述的听力训练方法。

19.一种存储指令的非暂时性计算机可读介质，所述指令在被处理器读取时致使用户设备执行根据权利要求1至17中任一项所述的听力训练方法。