CN117480789A

CN117480789A - 信息处理方法及信息处理系统

Info

Publication number: CN117480789A
Application number: CN202280041495.5A
Authority: CN
Inventors: 松本恭辅; 牧野坚一; 中村理; 土谷慎平
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2021-06-18
Filing date: 2022-02-28
Publication date: 2024-01-30
Also published as: JPWO2022264535A1; EP4358541A1; WO2022264535A1

Abstract

根据本公开的用于信息处理系统(1)的信息处理方法包括处理声音产生步骤和调整步骤。在处理声音产生步骤中，使用用于改变输出声音单元的声音收集功能或助听器功能的参数，通过声学处理来产生处理声音。在调整步骤中，通过用于声学处理的参数和基于对从输出声音单元输出的处理声音的反馈而选择的参数来调整输出声音单元。

Description

信息处理方法及信息处理系统

技术领域

本公开涉及信息处理方法和信息处理系统。

背景技术

存在一种设备，其通过调整头戴式声学设备(诸如助听器、集音器和耳机)的外部声音捕捉功能的参数，使用户以优选的方式收听外部环境中的环境声音(例如，参见专利文献1)。

助听器需要根据个人听力特性和使用情况进行调整。因此，通常，在专家向用户咨询助听器的同时调整参数。

引用列表

专利文献

专利文献1：WO 2016/167040 A1

发明内容

技术问题

但是，诸如专家等人的参数调整在调整参数的人的经验之间引起调整结果不同的问题。

因此，本公开提出了被配置为提供助听器的参数的适当调整而不受人类经验影响的信息处理方法和信息处理系统。

问题的解决方案

根据本公开的用于信息处理系统的信息处理方法包括处理声音产生步骤和调整步骤。在处理声音产生步骤中，通过使用改变声音输出单元的声音收集功能或助听器功能的参数的声学处理来产生处理声音。在调整步骤中，通过基于用于声学处理的参数和对从声音输出单元输出的处理声音的反馈而选择的参数来调整声音输出单元。

附图说明

图1是示出了根据本公开的基本学习模型的示图。

图2是示出了根据本公开的实施方式的信息处理系统的示例性示意性配置的示图。

图3是示出了根据本公开的实施方式的深度神经网络的实例的示图。

图4是示出了根据本公开的实施方式的深度神经网络的实例的示图。

图5是示出了根据本公开实施方式的奖励预测单元的示图。

图6是示出了根据本公开的实施方式的信息处理系统的操作的说明图。

图7是示出了根据本公开实施方式的信息处理系统的操作的说明图。

图8A是示出了根据本公开实施方式的用户界面的说明图。

图8B是示出了根据本公开实施方式的用户界面的说明图。

图9是示出了根据本公开实施方式的调整系统的示意性说明图。

图10是示出了根据本公开的实施方式的由信息处理系统执行的处理的实例的流程图。

图11是示出了根据本公开实施方式的信息处理系统执行的处理的实例的流程图。

图12是示出了根据本公开的实施方式的用户界面的说明图。

图13是示出了根据本公开的实施方式的包括外部协作设备和助听器本体的系统的配置的示图。

图14是示出了根据本公开的实施方式的反馈获取的图像的图示。

图15是示出了根据本公开的实施方式的信息处理系统的操作的说明图。

图16是示出了根据本公开的实施方式的包括用户情况估计设备的外部协作设备的配置的示图。

图17是示出了根据本公开的实施方式的由信息处理系统执行的处理的实例的流程图。

图18是示出了根据本公开实施方式的数据聚集系统的配置的示图。

图19是示出了根据本公开的实施方式的调整系统的另一示例性配置的示图。

具体实施方式

下面将参考附图详细描述本公开的实施方式。注意，在以下实施方式中，相同的部分由相同的参考标号或符号表示，并且将省略其重复描述。

[1.信息处理系统的概述]

例如，根据本实施方式的信息处理系统是全自动或半自动地执行参数调整(在下文中，也称为“调试”)的设备，用于改变具有外部声音捕捉功能的声音输出设备(诸如助听器、集音器或耳机)的助听器功能。在下文中，将描述由信息处理系统执行的助听器的调试，但是用于参数调整的目标可以是另一声音输出设备(诸如集音器或者具有外部声音捕捉功能的耳机)。

信息处理系统通过使用作为机器学习的实例的强化学习来执行助听器的调试。信息处理系统包括提出问题的代理，以便收集用于获取在加强学习中预测“奖励”的方法的数据。

代理对助听器佩戴者(在下文中，描述为“用户”)进行A/B测试。A/B测试是使用户收听语音A和语音B并要求用户回答用户偏好语音A和语音B中的哪一个的测试。注意，用户要听的声音不限于语音A和语音B中的两种类型，并且可以是三种以上类型的语音。

作为回答A/B测试的方法，例如，使用用户界面(UI)。例如，使得诸如智能电话、智能手表等的UI显示用于选择A或B的按钮，使得用户可以通过操作按钮来选择A或B。UI可以显示用于选择“A和B之间没有差别”的按钮。

此外，UI可以是用于仅当根据新参数获得的语音B(输出信号)比根据原始参数获得的输出信号的语音A更优选时提供反馈的按钮。此外，UI可被配置为通过用户的动作(诸如，点头)从用户接收回答。

此外，信息处理系统还可以被配置为从用户周围的电子产品(例如，智能电话、电视等)收集用户调整之前和之后的用户语音作为数据，并且基于所收集的数据执行强化学习。

作为从A/B测试以外的其他测试中获取奖励预测数据的方法，例如，对于用于训练奖励预测器的数据，使用在校正之前的语音和参数的获取以及在涉及语音调整的操作时的校正之后的语音和参数的获取。

此外，在A/B测试中，信息处理系统执行助听器的调试，同时使UI显示由人的化身、人物等表示的代理，并且使代理具有例如听力专家的角色以与用户交互。

[2.背景]

助听器具有用于信号处理的各种处理。最典型地，信号处理是“压缩机(非线性放大)”处理。因此，除非另有规定，下面将描述在压缩机处理中参数的调整。

对于助听器，压缩机通常由助听器店等处的听力专家调整。听力专家首先对用户执行听力测定以获得听力图。接下来，听力专家将听力图输入到调试公式(例如，NAL-NL、DSL等)中以获取压缩机的推荐调整值。

然后，听力专家使用户佩戴应用有压缩机的推荐调整值的助听器，用于听力试验和咨询。听力专家基于他/她的知识微调压缩机的值以解决用户的不满意。

然而，通过听力专家的助听器的调试具有以下问题。例如，来自听力专家等的人工支持的成本增加。此外，这种调试很大程度上取决于执行调整的人和接受调整的人的体验，经常导致调整的不满意。此外，不频繁的调整限制了精细的调整。此外，难以及时地解决用户对听觉的不满意。

因此，本实施方式提出了一种信息处理系统和信息处理方法，该信息处理系统和信息处理方法被配置为使得由信息处理系统调整助听器的参数而不受任何听力专家的干预，并且适当地调整助听器的参数而不受人的经验的影响。

存在用于实现该目的的方法的强化学习。强化学习是一种用以“找到如何使用策略确定动作以便最大化将在未来获得的奖励的总和”的方法。

这里，当将典型的强化学习应用于压缩机的调整时，基本学习模型可以通过图1中示出的配置实现。在该配置中，强化学习中的状态s变成使用特定参数处理的声学信号(处理声音)。代理充当自动参数调整单元，其基于此时输入的状态来选择一个动作a(＝压缩机参数设置值)。

此外，加强学习中的环境通过处理具有由代理选择的压缩机参数a的语音信号来获得。此外，获得以下奖励。奖励是指示用户喜欢由代理执行的参数改变的程度的得分r(s’，a，s)。

要通过强化学习解决的问题是获取用于最大化当代理与环境(奖励、动作和状态交换)之间的交互持续一定长度的时间段时获得的奖励的总值的策略π(a|s)。只要可以适当地设计奖励函数r，就可以通过一般的强化学习方法来解决该问题。

然而，“各个用户有多喜欢参数改变”是未知的，该问题不能通过上述方法解决。这是因为人类在涉及大量试验的学习过程中为所有试验给予奖励是不切实际的。

[3.信息处理系统的示意性配置]

因此，如图2所示，根据实施方式的信息处理系统1包括调整单元10和处理单元20。处理单元20包括环境产生单元21。环境产生单元21具有如下功能：通过使用改变助听器的助听器功能的参数的声学处理(集音器信号处理)来产生处理声音，并使助听器输出处理声音。

调整单元10从已收听了处理声音的用户获取用于声学处理的参数和作为对处理声音的反馈的反应，以用于对于适合于用户的参数的选择方法的机器学习，并且根据通过选择方法选择的参数调整作为声音输出单元的实例的助听器。

调整单元10包括代理11和奖励预测单元12。如图1所示，代理11基于输入的处理声音和奖励执行对于适合于用户的参数的选择方法的机器学习，并且将通过选择方法选择的参数输出到处理单元20。

处理单元20在声学处理之后根据输入参数将处理声音输出到代理11和奖励预测单元12。此外，处理单元20将用于声学处理的参数输出到奖励预测单元12。

奖励预测单元12基于顺序输入的处理声音和参数而不是基于用户来执行用于预测奖励的机器学习，并且向代理11输出所预测的奖励。因此，代理11可适当地调整助听器的参数，而无需听力专家的干预或无需用户进行A/B测试的大量试验。

[4.学习和调整过程]

奖励预测单元12获取用于评估的语音信号。在本实施方式中，确定用于参数调整的输入语音(处理声音)的数据集合，并且处理声音和用于处理声音的声学处理的参数被随机输入到奖励预测单元12。奖励预测单元12根据输入的处理声音和参数来预测奖励，并将该奖励输出到代理11。

代理11基于输入的奖励来选择适合于用户的动作(参数)，并且将所选择的动作输出到处理单元20。处理单元20基于从代理11获得的动作获取(更新)参数θ1和θ2。

在本实施方式中，对调整目标的信号处理是3频带多频带压缩机处理。例如，假设每个频带的压缩率从标准值取-2、+1和+4的三个值。

标准值是使用调试公式由听力图计算的压缩率的值。在3个方式×3个频带的实例中，来自代理11的输出取九个值。处理单元20将每个参数的信号处理应用于所获取的语音。

在此参数调整步骤中，目的是“对于每次输入的语音训练奖励预测单元12和代理11，针对给定输入，从九个可能的参数集合中选择用户看起来最喜欢的参数集合，参数集合使能语音处理”。

在包括奖励预测单元12的学习过程中，首先，通过监督学习来训练奖励预测单元12，作为强化学习之前的准备。考虑到很多用户可能难以收听一个声源并绝对地评估声源，因此，这里考虑使用户收听A和B两个声音并要求用户回答哪个更容易听到的评估任务。

图3和图4都是学习用户在该任务中的回答行为的深度神经网络的具体实例。图3中示出的第一输入语音和第二输入语音是通过使用两个压缩参数集合θ1和θ2分别对语音信号执行信号处理而获得的。应注意，图3中示出的第一输入语音和第二输入语音可转换为短时傅里叶变换的振幅谱/对数谱等作为预处理。

第一输入语音和第二输入语音都输入到图4中示出的共享网络。均作为来自共享网络的输出的第一输出和第二输出被输入至完全连接层(fully connected layer)并且连接，并且被输入至softmax(归一化指数)函数。

在图3中，奖励预测单元12输出第一输入语音优于第二输入语音的概率。使用以下λ作为用于输出的训练数据。λ＝(λ1，λ2)＝(1，0)表示第一输入语音是优选的，λ＝(λ1，λ2)＝(0，1)表示第二输入语音是优选的，λ＝(λ1，λ2)＝(0.5，0.5)表示第一输入语音和第二输入语音两者都在允许范围内并且感觉没有差异，并且λ＝(λ1，λ2)＝(0，0)表示第一输入语音和第二输入语音两者都在允许范围之外。然而，λ＝(λ1，λ2)＝(0，0)可不用于学习。

此时，图3中的网络可通过学习来优化以使训练数据的交叉熵(cross entropy)L＝-Σ(λ1logP+λ2(1-P))最小化。这里，P是来自网络的输出。此外，参数θ1和θ2从可能的选项之中随机产生。这是因为还未执行强化学习过程，并且不能从代理11获得适当的输入。

在上述学习中，与监督学习的模型构造的一般使用情况不同，需要学习各个用户的偏好。因此，尽管购买助听器之后需要花费一些时间来获取数据，但此时并不总是需要完全完成学习，因为奖励预测单元12具有进一步更新的机会，如稍后描述的。

接下来，将描述普通的强化学习。通过上述学习获得的奖励预测单元12用于通过典型的强化学习重复更新代理11。首先，强化学习中的目标函数由以下公式(1)表示。

E[∑_∞0γtr(st，at，st+1)]…(1)

这里，当条件期望由以下公式(2)表示时

Q(s，a)＝E[∑_∞0γtr(st，at，st+1)|s₀＝s，a₀＝a]…(2)，

由以下公式(3)给出在时间t＝0时目标函数最大化的策略。

π(a|s)＝argmaxπQ(s，a；φ)…(3)

应注意，例如，策略π可以是由以下公式(4)给出的模型：

a＝argmaxaQ(s，a；φ)…(4)，

或者可以选择具有诸如softmax策略的温度参数的模型。

下面给出了强化学习中代理的更新。1.例如，通过均匀分布等初始化策略π。2.在下文中，重复以下步骤。(a)根据当前策略确定动作(＝压缩参数)，并且使用在图5中示出的奖励预测器(奖励预测单元12)计算当前状态的奖励值。然后，动作(＝压缩参数)被输入到环境以获得下一状态。此后，(b)估计用于下一状态的动作值函数＝Q，以及(c)使用所估计的Q来更新策略。

根据如何执行上述(b)和(c)，存在各种强化学习方法。在此，作为实例描述了Q学习。注意，用于实现上述(b)和(c)的强化学习方法不限于Q学习。

在Q学习中，通过以下公式(5)给出来自Q(s，a；Φ)的定义的下一步骤的Q值：

yt＝r(st，at)+γmaxa′Q(s′t，a′t)…(5)。

现在，假设通过使用例如卷积神经网络(CNN)对这个Q函数进行建模，(深Q网络)CNN的参数Φ可以通过以下公式(6)进行更新。

φ＝argmax_φ||Q(st，at；φ)-y_t||₂…(6)

图6中示出了本步骤中的信息处理系统1的操作。如图6中所示，根据当前策略确定动作(＝压缩参数)，并且将该参数输出给处理单元20。处理单元20根据输入参数对用于学习的语音信号执行信号处理，并将处理声音输出到代理11。此外，处理单元20将一对处理声音(第一输入语音和第二输入语音)和参数输出到奖励预测单元12。

奖励预测单元12从一对处理声音和参数中估计奖励，并且将所估计的奖励输出到代理11。代理11基于输入的奖励确定最佳动作(＝压缩参数)，并将参数输出到处理单元20。信息处理系统1通过强化学习在重复该操作的同时更新代理11和奖励预测单元12。

此外，当获得来自用户的反馈时，信息处理系统1异步更新奖励预测单元12。当代理11被更新到一定程度并且可以预期动作值函数或预期策略具有适当的值时，信息处理系统1可以进一步获得用户反馈以更新奖励预测单元12。

在这种情况下，与第一步骤不同，在用于产生第一输入语音和第二输入语音的参数θ1和θ2中，θ1可以是在前一步骤中的参数，并且θ2可以是在本步骤中从代理11获得的参数。

在图7中示出了本步骤中的信息处理系统1的操作。如图7所示，信息处理系统1通过用户界面30将从处理单元输出的这一对处理声音呈现给用户。然后，信息处理系统1将对经由用户界面30输入的来自用户的处理声音的反馈(反应：哪个声音更好)连同这一对处理声音一起输出至奖励预测单元12。其他操作类似于图6中所示的操作。

[5.用户界面]

接下来，将描述根据本公开的用户界面的实例。例如，通过诸如智能电话、智能手表或者个人计算机的外部协作设备的显示操作单元(例如，触摸屏显示器)实现用户界面。

在外部协作设备中，预先安装用于调整助听器的参数的应用程序(在下文中，描述为“调整应用程序”)。此外，用于调整助听器的参数的一些功能可以实现为外部协作设备的操作系统(OS)的功能。当用户购买助听器或者不满意助听器的行为时，用户操作外部协作设备启动调整应用程序。

在启动调整应用程序时，外部协作设备显示例如图8A中示出的用户界面30。用户界面30包括显示单元31和操作单元32。在显示单元31上，显示说出用于调整的处理声音的化身33。

操作单元32包括声音输出按钮34和35以及数字1至数字4键36、37、38和39。当用户敲击声音输出按钮34时，化身33说出作为第一输入语音的语音A，并且当敲击声音输出按钮35时，化身33说出作为第二输入语音的语音B。

当数字1键36被敲击时，用户界面30将反馈“语音A易于收听”输出至奖励预测单元12，当数字2键37被敲击时，用户界面30输出反馈“语音B易于收听”。

此外，当数字3键38被敲击时，用户界面30将反馈“在语音A和语音B之间没有差值，并且两者都在允许范围内”输出至奖励预测单元12，并且当数字4键39被敲击时，用户界面30输出反馈“在语音A和语音B之间没有差值，并且两者都不舒服”。如上所述，根据用户界面30，A/B测试可以容易地以与化身33的交互模式进行，而不管用户在哪里。

外部协作设备可以显示在图8B中示出的用户界面30。在图8B所示的实例中，使显示单元31在其上显示作为调试助听器的专家的听力专家的化身33a。

当启动调整应用程序时，化身33a充当协助者来进行助听器的调整，例如，当询问用户“A或B哪一个更好？”或“那么，C如何？”。以这种方式，可以提供交互信息呈现/选项，好像作为虚拟听力专家的代理(诸如摄影或动画听力专家)在调整应用程序上远程地执行调试过程。

通过使用如上配置的用户界面30，可以预期减轻用户的重复单调测试的压力或调整失败(诸如，利用不期望的声音的输出的参数设置的提议)的压力。

此外，图8B所示的用户界面30显示滑块36a而不是数字1至数字4键36、37、38和39。该配置使得用户可以通过在应用程序上使用滑块36a来提供不是0/1的回答而是作为对语音的好感度的在0与1之间的连续值作为回答。

例如，位于A和B中间的滑块36a(0.5)可提供表示A和B之间的感觉不存在差异并且两者在允许范围内的答案，并且位于B附近的滑块36a(0.8)可提供诸如“我宁愿喜欢B”的答案。

注意，使用调整应用程序回答A/B测试的方法可以使用诸如“我喜欢A”或“我喜欢B”的语音回答。此外，例如，在用户界面30被配置为首先输出语音A然后输出语音B的情况下，用户可以摇头以示出是否接受改变的参数。此外，当没有示出指示接受的点头时，在输出声音之后的预定时间段(例如，5秒)，其可被视为拒绝。

注意，虽然迄今为止已经描述了通过使用外部协作设备来调整助听器和获取用户反馈的实例，但是可以在不使用外部协作设备的情况下执行调整助听器和获取反馈。例如，助听器可以输出语音A、语音B和语音指导，以使用户根据语音指导通过使用设置在助听器本体中的物理键、接触传感器、接近传感器、加速度传感器、麦克风等输入反馈。

[6.调整系统的概述]

接下来，将描述根据本公开的调整系统的概述。这里，将描述具有信息处理系统1的功能的外部协作设备。如图9所示，外部协作设备40以有线或无线方式可通信地连接至左耳助听器50和右耳助听器60。

外部协作设备40包括调整单元10、左耳助听器处理单元20L、右耳助听器处理单元20R和用户界面30。调整单元10、左耳助听器处理单元20L和右耳助听器处理单元20R均包括微型计算机和各种电路，该微型计算机包括中央处理单元(CPU)、只读存储器(ROM)、随机存取存储器(RAM)等。

调整单元10、左耳助听器处理单元20L和右耳助听器处理单元20R通过使用RAM作为工作区域执行存储在ROM中的调整应用程序的CPU而起作用。

注意，调整单元10、左耳助听器处理单元20L和右耳助听器处理单元20R中的一些或全部可以包括诸如专用集成电路(ASIC)或现场可编程门阵列(FPGA)的硬件。

如上所述，用户界面30通过例如触摸面板显示器来实现。左耳助听器50包括左耳声学输出单元51。右耳助听器60包括右耳声学输出单元61。

左耳助听器50和右耳助听器60中的至少一个可以包括声学输入单元(未示出)，该声学输入单元包括用以收集周围声音的麦克风等。此外，声学输入单元可被设置在以有线或无线方式与外部协作设备40或其他左耳助听器50和右耳助听器60通信连接的设备中。左耳助听器50和右耳助听器60基于由声学输入单元获取的周围声音执行压缩处理。由声学输入单元获取的周围声音可通过左耳助听器50、右耳助听器60或外部协作设备40用于噪声抑制、波束成形或语音指令输入功能。

调整单元10包括代理11和奖励预测单元12(见图2)，并且将参数输出至左耳助听器处理单元20L和右耳助听器处理单元20R。左耳助听器处理单元20L和右耳助听器处理单元20R使用输入参数通过声学处理来产生处理声音，并且将处理声音输出到左耳助听器50和右耳助听器60。

左耳声学输出单元51和右耳声学输出单元61输出从外部协作设备40输入的处理声音。用户界面30从已经收听了处理声音的用户接收反馈(A和B的声音哪一个更好)，并且将反馈输出至调整单元10。调整单元10基于反馈选择更适当的参数，并且将该参数输出至左耳助听器处理单元20L和右耳助听器处理单元20R。

当在重复这样的操作之后确定最佳参数时，外部协作设备40通过左耳助听器处理单元20L设置用于左耳助听器50的参数，通过右耳助听器处理单元20R设置用于右耳助听器60的参数，并且结束参数调整。

[7.由信息处理系统执行的处理]

接下来，将描述由信息处理系统1执行的处理的实例。如图10所示，当激活调整应用程序时，信息处理系统1首先确定是否存在学习历史(步骤S101)。

当确定存在学习历史时(步骤S101，是)，信息处理系统1进行至步骤S107。另外，信息处理系统1在确定不存在学习历史记录的情况下(步骤S101，否)，从评估声音数据选择文件(步骤S102)，随机产生参数θ1、θ2，根据这些参数产生处理声音A、B以将处理声音输出，并执行A/B测试(步骤S104)。

此后，信息处理系统1获取用户的反馈(例如，来自图8A中所示的数字1、数字2、数字3和数字4键的输入等)(步骤S104)，并且确定A/B测试是否已完成10次(步骤S105)。

当确定A/B测试未完成10次时(步骤S105，否)，信息处理系统1进行到步骤S102。当确定A/B测试已经完成10次时(步骤S105，是)，调整单元10基于在最近执行了10次反馈之后获得的数据来更新奖励预测单元12(步骤S106)。

接着，信息处理系统1从评估数据随机地选择文件(步骤S107)，随机产生参数θ1、θ2，根据这些参数产生处理声音A、B以将处理声音输出，并执行A/B测试(步骤S108)。

此后，信息处理系统1获取用户的反馈(例如，来自图8A中所示的数字1、数字2、数字3和数字4键的输入等)(步骤S109)，并更新代理11(步骤S110)。

随后，信息处理系统1确定A/B测试是否已经完成10次(步骤S111)。当确定A/B测试未完成10次时(步骤S111，否)，信息处理系统1进行到步骤S107。

当确定A/B测试已经完成10次时(步骤S111，是)，调整单元10基于在最近执行了10次反馈之后获得的数据来更新奖励预测单元12(步骤S112)，并且确定步骤S106至S112的处理是否已经完成两次(步骤S113)。

当确定步骤S106至S112的处理尚未完成两次(步骤S113，否)时，信息处理系统1进行至步骤S106。此外，确定步骤S106至S112的处理已经完成两次(步骤S113，是)，信息处理系统1结束参数调整。

要注意的是，在每次A/B测试时输入反馈很麻烦，因此，信息处理系统1还可进行如图11所示的简化处理。具体地，如图11所示，信息处理系统1还可执行从图10所示的处理省略步骤S109、S112和S113的处理。

然而，由于奖励预测单元12的学习不充分，执行图11中示出的处理可以导致具有与实际用户的喜好偏离的输出的较差的学习结果。因此，信息处理系统1可施加限制，使得不能连续执行图11中示出的处理。

[8.其他实例]

上述实施方式仅是实例，并且可以进行各种修改。例如，根据本公开的信息处理方法不仅可以应用于压缩，而且可以应用于噪声抑制、反馈消除、对于通过波束成形强化特定方向的自动参数调整等。

在针对多种类型的参数的参数调整时，信息处理系统1可以在一个强化学习过程中学习多个信号处理参数，但是也可以针对每个参数子集并行地执行强化学习过程。例如，信息处理系统1可单独执行用于噪声抑制的A/B测试和学习过程以及用于压缩参数的A/B测试的学习过程。

此外，信息处理系统1可以增加学习中的条件变量的数量。例如，针对单独的学习，可以针对若干场景中的每一个提供单独的测试、单独的代理11和单独的奖励预测单元12。

[8-1.获得间接用户反馈]

信息处理系统1还可以经由调整助听器的一些参数的应用获取间接用户反馈。

根据助听器，例如，智能电话等可提供直接或间接调整助听器的一些参数的功能。图12是可以调整助听器的一些参数的用户界面30的实例。

如图12所示，用户界面30包括接收音量调整操作的滑块36b、接收用于三频带均衡器的调整操作的滑块37b以及接收用于噪声抑制功能的强度的调整操作的滑块38b。

图13是示出包括外部协作设备和助听器本体的系统的配置的示图。如图13所示，外部协作设备40包括输入语音缓冲器71和75、反馈获取单元72和76、参数缓冲器73和77、参数控制单元78、用户反馈数据库(DB)74以及用户界面30。参数控制单元78具有信息处理系统1的功能。

左耳助听器50包括左耳声学输出单元51、左耳声学输入单元52和左耳助听器处理单元53。右耳助听器60包括右耳声学输出单元61、右耳声学输入单元62和右耳助听器处理单元63。

左耳助听器50和右耳助听器60将输入的语音发送到外部协作设备40。外部协作设备40将所接收的语音与时间戳一起存储在输入语音缓冲器(例如，用于左侧和右侧的60秒数据的循环缓冲器)71和75中。可以始终进行该通信，或者可以基于调整应用程序的激活或来自用户的指令开始该通信。

当检测到通过用户的操作的参数改变/控制时，改变之前的参数与时间戳一起被存储在参数缓冲器73和77中。此后，当检测到参数改变的结束时，改变之后的参数也与时间戳一起被存储在参数缓冲器73和77中。

在改变之前和之后的至少两个参数集合可存储在用于每个耳朵的参数缓冲器73和77中。例如，当在预定的时间段(例如，5秒)内未发现操作时，可检测参数改变的结束，可由用户自己指定预定的时间段，或者可由用户的操作执行调整完成的通知。

一旦完成了参数调整，存储在缓冲器中的语音和参数组就被输入到反馈获取单元72和76。图14示出反馈获取的图像。如图14所示，可以从已经存储在缓冲器中的语音输入(调整之前和之后)和参数(调整之前和之后)获取反馈数据的两个集合。

具体地，当用户根据参数θ1收听处理声音并且然后根据手动调整的参数θ2收听处理声音时，可以估计用户更喜欢根据参数θ2的处理声音，而不是根据参数θ1的处理声音。换言之，可以估计用户优选参数θ2而不是参数θ1。

因此，反馈获取单元72和76可将标签“偏好B而不是A”应用于根据调整之前的参数θ1的第一对处理声音A和通过将参数θ2应用于作为处理声音的来源的输入信号而获得的处理声音B，从而将第一对存储在用户反馈DB 74中。

此外，反馈获取单元72和76可将标签“偏好A而不是B”应用于根据调整的参数θ2的第一对处理声音A和通过将参数θ1应用于作为处理声音的来源的输入信号而获得的处理声音B，从而将第一对存储在用户反馈DB 74中。

参数控制单元78可以使用存储在用户反馈DB 74中的反馈来立即更新奖励预测单元12，或者可以使用累积的若干条反馈数据或者每个预定时间段累积的反馈来更新奖励预测单元12。

如上所述，包括在参数控制单元78中的调整单元10基于用户的手动调整之前和之后的参数以及所预测的用户对使用参数对处理声音的反应来执行对于参数的选择方法和对于奖励的预测方法的机器学习。

注意，除了这里描述的实例之外，当在诸如电视或便携式音乐播放器的输出声音的产品中执行声音调整操作时，外部协作设备40可以通过使用调整之前和之后的声音来类似地获取反馈数据。

[8-2.附加属性信息的使用]

当调整助听器的参数时，优选的参数调整可以根据用户的情况而不同，甚至输入相似的声音。例如，在会议期间，即使语音由于信号处理的副作用保持一定程度的不自然，也期望有助于识别人们在说什么的输出。同时，当用户在家中放松时，期望具有最小化声音质量劣化的输出。

这意味着在加强学习中，策略和奖励功能在行为上不同，这取决于用户的情况。因此，考虑其中包括指示“用户处于哪种情况”的附加属性信息作为状态的实例。

例如，附加属性信息包括用户从外部协作设备40的用户界面30选择的场景信息、通过语音输入的信息、通过全球定位系统(GPS)测量的用户的位置信息、通过加速度传感器检测的用户的加速度信息、在管理用户的日程的应用程序中注册的日历信息等、以及它们的组合。

图15示出了使用附加属性信息的信息处理系统1的操作。如图15所示，用户使用来自调整应用程序的用户界面30来选择“从现在开始期望在哪个场景调整”。

在上述实施方式中，从环境产生单元21输出的声音随机地从所有包括在评估数据中的声音输出。在本实例中，从评估所需数据输出使用与场景信息相匹配的环境声音的声音。

在该配置中，知识声音被用于什么种类的场景的元数据需要被添加到存储在评估数据库中的每条语音数据。指示用户情况的数据也与处理声音和反馈信息一起被输入到奖励预测单元12和代理11。

奖励预测单元12和代理11可以具有根据相应的用户情况的独立模型，使得根据已经输入的用户情况可互换地实现模型，或者可以实现为其中用户情况也与语音输入一起被输入的一个模型。

图16示出了包括用户情况估计设备的外部协作设备40a的配置。外部协作设备40a与图13所示的外部协作设备40的不同之处在于包括传感器79和协作应用程序80。传感器79包括例如GPS传感器、加速度传感器等。

例如，协作应用程序80包括包含用户的情况作为文本数据或元数据的应用程序，诸如，日历应用程序或SNS应用程序。传感器79、协作应用程序80、以及用户界面30将用户情况或者用于估计用户情况的信息输入至反馈获取单元72和76以及参数控制单元78。

反馈获取单元72和76使用该信息将用户情况分类成提前准备的任何类别，并且将添加到语音输入的分类信息和用户反馈信息存储在用户反馈DB 74中。

注意，反馈获取单元72和76可以从存储在缓冲器中的语音输入中检测场景。在参数控制单元78中，由已经经受机器学习的代理11和奖励预测单元12针对每个分类的类别选择合适的参数。

[8-3.反馈数据的可靠性(加权)]

除了如上所述的附加简档信息之外，还可以添加每条反馈数据的可靠性。例如，在训练奖励预测单元12时，并非所有的数据都以统一的概率作为训练数据被输入，而是可以以根据可靠性的比率输入数据。

例如，根据从其获得反馈数据的来源可靠性可以采用预定值，诸如当从A/B测试获得数据时将可靠性设置为1.0，或者诸如当通过来自智能电话的调整的间接反馈(反应)获得数据时将可靠性设置为0.5。

或者，在调整时，可从周围情况或者用户的情况确定可靠性。例如，在A/B测试在有噪声的环境中进行的情况下，周围噪声可能变成掩蔽声音，阻碍用户的适当反馈。

因此，可以使用这样一种方法，其中，每隔几秒计算周围声音的平均等效噪声等级等，并且当平均等效噪声等级等于或大于第一阈值并且小于比第一阈值高的第二阈值时，将可靠性设置为0.5，当平均等效噪声等级等于或大于第二阈值且小于比第三阈值高的第三阈值时，将可靠性设置为0.1，并且当平均等效噪声等级等于或大于第三阈值时，将可靠性设置为0。

[8-4.原地(in-situ)自动调试]

在上述实例中，已经描述了使用在图12中示出的用户界面30进行参数调整并且使用获得的信息进行奖励预测的使用情况。然而，并非助听器的所有参数都可以通过图12中示出的用户界面30调整。

首先，针对大量参数的手动参数调整对于用户来说是复杂且困难的。还存在自动执行原地调整的使用情况。因此，在信息处理系统1中，可以组合手动参数调整和自动参数调整。

在该配置中，信息处理系统1执行例如图17所示的处理。具体地，如图17所示，当激活调整应用程序时，信息处理系统1首先使用户执行手动调整(步骤S201)，并且将调整的结果存储在用户反馈DB 74中(步骤S202)。

随后，信息处理系统1更新奖励预测单元12(步骤S203)，并且确定用户是否进一步期望自动调整(步骤S204)。然后，当信息处理系统1确定用户不希望进一步自动调整时(步骤S204，否)，信息处理系统1将调整之前的参数反映在助听器中(步骤S212)，并且结束调整。

此外，当信息处理系统1确定用户期望进一步的自动调整(步骤S204，是)时，信息处理系统1通过奖励预测单元12执行N次(N是任何设定的自然数)强化学习(图11中示出的步骤S107至S111)。(步骤S205)。

随后，信息处理系统1通过代理11和A(更新前)/B(更新后)测试执行参数更新(步骤S206)，将结果存储在用户反馈DB74中(步骤S207)，并且更新奖励预测单元12(步骤S208)。

此后，信息处理系统1确定反馈是指示A(更新前)还是B(更新后)(步骤S209)。然后，当反馈是A时(在更新之前)(步骤S209，A)，信息处理系统1进行到步骤S204。

此外，当反馈指示B(更新之后)时(步骤S209，B)，信息处理系统1在助听器中反映新参数并显示提示确认用于真实语音输入的调整效果的消息(步骤S210)。

此后，信息处理系统1确定用户是否满意(步骤S211)，并且当确定用户不满意时(步骤S211，否)，处理进行至步骤S204。此外，当确定用户满意时(步骤S212，是)，信息处理系统1结束调整。

[8-5.使用关于通过听力专家的调整的信息]

存在一种使用情况，其中要求听力专家调整助听器，而不是完全取决于自动调整。以下配置使得可以通过进一步使用关于通过听力专家的调整的信息来自动调整参数。

由听力专家使用关于调整的信息的优点如下。例如，从听力保护的观点来看，在上述实例中，针对压缩机的每个频带，基于调整值向参数添加“-2、+1、+4”，但是在实际使用情况下，在某些情况下除非调整范围更宽，否则可能不能获得效果。然而，对任何用户允许相同的调整宽度会在听力保护方面引起问题。

此外，从习惯助听器的观点来看，没有习惯佩戴助听器的用户往往更喜欢较低的放大程度，而不是听力专家认为的适当值。因此，通常，从用户的偏好与听力专家考虑的适当值之间的差值，随着时间的推移，采取逐渐接近听力专家考虑的适当值的过程，并且用户逐渐地习惯于听助听器。或者，一些助听器商店强行地推荐听力专家考虑的适当价值。

利用这些益处，例如，在参数具有“必须保持”的清楚的范围的情况下，清楚地设置可能的动作范围。在上述实例中，对于压缩机的每个频带，基于调整值向参数添加“-2、+1、+4”，但是可以通过将值的集合从(-2、+1、+4)改变为(0、+2、+4、+6、+8、+10)、(-4、-2、0、+2)等来实现本发明。注意，可以针对每个频带改变参数设置值。尤其是，从听力保护的观点来看，使用该方法是有效的。

虽然不可能确定清楚的参数范围，但是在“听力专家认为好的元素需要被合并到调整中”的情况下，优选的是根据听力专家与用户奖励预测分开地构成奖励预测单元12。

例如，在“如果用户强烈期望+5作为压缩机参数，则该参数可以被设置为+5，但是听力专家认为适当的值可能位于或低于+4”的情况下，使用诸如以下公式(8)的修改的预测奖励。

rtotal＝ruser+raudi (8)

这里，rtotal是用于学习的奖励，ruser是来自奖励预测单元12的输出，并且raudi可以使用诸如raudi＝-β/exp(+a(x-4))1的函数，当参数的设定值x超过+4时，该函数轻轻地减少奖励。如果使用对通过听力专家的隐式调整(implicit adjustment)的结果的评估，则可以类似于ruser来训练raudi。

此外，可以将商店处的调整的结果、通过远程调试获得的调整前后的参数以及用于试听以确认效果的处理声音存储在用户反馈DB 74中并且用作用于强化学习的数据，而不是提供用于获取通过听力专家的调整的结果的特殊机制。

[8-6.聚集并使用多个用户的数据的实例]

迄今为止，已经描述了仅使用个人数据来调整个人用户的助听器，但是服务提供商也可以聚集多个用户的数据以提高每个用户的自动调整功能的质量。

本实例基于“具有相似的个人资料和听力丧失症状的用户应具有相似的奖励函数和优选的调整参数”的假设。图18示出了根据本实例的示意性系统配置。

通过使用上述调整功能，在用户(即，图18中示出的第一用户U-1至第N用户U-N)的外部协作设备4-1至4-N中累积无限数量的反馈数据。

反馈数据的集合、用户标识符、用于收集反馈数据的助听器5-1至5-N的标识符、加强学习中的代理11和奖励预测单元12的参数、助听器5-1至5-N的调整参数等被上传到服务器上的反馈数据库74a。

外部协作设备4-1至4-N直接连接到广域网(WAN)，并且可以在后台上传数据，或者可以一次将数据传输到诸如另一个人计算机的外部设备，然后上传数据。假设反馈数据包括在[8-2.附加属性信息的使用]中描述的属性信息。

例如，用户反馈分析处理单元81直接使用诸如“母语、年龄组、使用场景”的信息或者使用听力图信息作为特征向量在空间中执行集群(clustering)(例如，k均值集群)以将用户分类成预定数量的类别以对各种聚集信息进行分类。

在共享DB 74b中存储表征分类本身的信息(例如，属性信息本身、经聚类的音频图的每个类别的平均值等)、和分类的反馈数据和用户数据的全部或部分或代表值或统计值。

作为代表值，可以使用音频图特征空间中最接近中值的个体的每个分类或数据的加法平均值，或者可以使用通过使用所有分类的用户或一些接近中值的用户的反馈数据重新训练的奖励预测单元12或代理11。为了自我学习，以上实例中描述的方法适用于多个用户的数据。

以这种方式获得的共享DB 74b的具体应用之一是针对刚开始使用助听器的用户的数据共享。在上述实例中，压缩机参数的初始值是从基于音频图的调试公式计算的值。然而，在本实例中，替代地，可以将基于用户简档或者相同分类中的最接近的用户数据而分类的类别的代表值用作初始值。这不仅适用于调整参数的初始值，而且适用于代理11和奖励预测单元12的初始值。

在调整过程中使用第二具体应用。通过以预定频率随机地采用同一用户类别的调整参数，除了由代理11输出的动作进行的参数更新之外，还可以预期防止趋同于本地解决方案或可以加速发现更好的解决方案的效果。

[8-7.调整系统的另一示例性配置]

在图9、13和16中，已经描述了为左助听器和右助听器独立地设置输入语音缓冲器、参数缓冲器、反馈获取单元72和76等的实例。这是因为很多助听用户在两耳都佩戴助听器，左右耳听力损失的症状不同，需要独立的压缩机参数。

在用户是单声道助听器佩戴者的情况下，单声道助听器可通过一只耳朵的配置来实现。用于除压缩机之外的助听器信号处理的参数包括例如在左边和右边共有的参数，以及彼此不同的但应当同时调整的参数，诸如用于噪声抑制的参数。

当这样的信号处理包括在用于自动调整的目标中时，需要对左耳和右耳两者一起进行反馈数据的管理。在这种情况下，例如，如在图19中所示的调整系统101中，外部协作设备40b可具有其中输入语音缓冲器71和反馈获取单元72由左耳助听器50和右耳助听器60共享的配置。

注意，外部协作设备40、40a和40b的所有功能可以被包括在助听器中。例如，作为处理单元的实例的左耳助听器处理单元20L和右耳助听器处理单元20R以及调整单元10可以安装在助听器上。或者，左耳助听器处理单元20L、右耳助听器处理单元20R和调整单元10可以安装在诸如外部协作设备40之类的终端设备上，该终端设备将处理声音的信号数据输出到助听器。

此外，代替将所有过去的数据存储在用户反馈DB 74中，最近的数据可以被高速缓存，并且主体的数据库可以在云上。此外，到目前为止所描述的每个图仅是实例，并且不限制根据本公开内容的每个部件的位置。

应注意，本文中描述的效果仅是实例并且不限于该描述，并且可以提供其他效果。

应注意，本技术还可具有以下配置。

(1)

一种信息处理系统的信息处理方法，信息处理系统包括：

处理声音产生步骤，通过使用改变声音输出单元的声音收集功能或助听器功能的参数的声学处理来产生处理声音；以及

调整步骤，根据基于用于声学处理的参数和对从声音输出单元输出的处理声音的反馈而选择的参数来调整声音输出单元。

(2)

根据(1)的信息处理方法，其中，

在调整步骤中，

基于用于声学处理的参数以及对从声音输出单元输出的处理声音的反馈执行对于适合于用户的参数的选择方法的机器学习，并且根据通过选择方法选择的参数调整声音输出单元。

(3)

根据(2)的信息处理方法，其中，

在调整步骤中，

获取用于声学处理的参数以及对从声音输出单元输出的处理声音的反馈，以执行预测方法的机器学习，预测方法使用任何参数预测对通过声学处理产生的处理声音的反馈作为奖励；以及

选择最大化所预测的奖励的参数。

(4)

根据(1)至(3)中任一项的信息处理方法，还包括：

处理声音输出步骤，由声音输出单元输出处理声音。

(5)

根据(4)的信息处理方法，其中，

在处理声音输出步骤中，

声音输出单元输出具有用于声学处理的不同参数的至少两种类型的处理声音，并且

在调整步骤中，

获取用于至少两种类型的处理声音的声学处理的参数以及对从声音输出单元输出的至少两种类型的处理声音的反馈。

(6)

根据(5)的信息处理方法，还包括：

显示步骤，显示说出处理声音的说话者；以及

选择接收步骤，接收从至少两种处理声音中选择优选的处理声音的操作。

(7)

根据(5)的信息处理方法，进一步包括：

显示步骤，显示说出处理声音的说话者；以及

选择接收步骤，接收选择对至少两种类型的处理声音的好感度的滑块操作。

(8)

根据(3)的信息处理方法，其中，

在调整步骤中，

获取已经收听了所输出的处理声音的用户手动调整参数的结果，以基于调整的结果执行对于参数的选择方法和对于奖励的预测方法的机器学习。

(9)

根据(8)的信息处理方法，其中，

在调整步骤中，

基于用户的手动调整之前和之后的参数以及用户使用参数对处理声音的预测反应，执行对于参数的选择方法和对于奖励的预测方法的机器学习。

(10)

根据(9)的信息处理方法，其中，

在调整步骤中，

基于根据用户的反馈是实际反应还是预测反应添加有可靠性的用户的反馈，执行对于参数的选择方法和对于奖励的预测方法的机器学习。

(11)

根据(3)的信息处理方法，其中，

在调整步骤中，

估计已经收听了所输出的处理声音的用户的情况，以针对用户的每种情况执行对于参数的选择方法和对于奖励的预测方法的机器学习。

(12)

根据(11)的信息处理方法，其中，

在调整步骤中，

根据通过用户的操作或语音输入的信息、通过全球定位系统(GPS)测量的用户的位置信息、通过加速度传感器检测的用户的加速度信息以及在管理用户的日程的应用程序中注册的日历信息中的至少任意一者来估计用户的情况。

(13)

根据(11)或(12)的信息处理方法，其中，

在调整步骤中，

根据取决于用户的情况的参数调整声音输出单元。

(14)

根据(3)的信息处理方法，其中，

在调整步骤中，

从已经收听了处理声音的多个用户获取用于声学处理的参数和对处理声音的反馈，以执行对于参数的选择方法和对于奖励的预测方法的机器学习。

(15)

根据(14)的信息处理方法，其中，

在调整步骤中，

从服务器中获取参数和多个用户的反馈，服务器存储用于声学处理的参数以及已经收听了处理声音的多个用户对处理声音的反馈。

(16)

根据(14)或(15)的信息处理方法，其中，

在调整步骤中，

基于与使用调整目标的声音输出单元的用户的相似性，选择获取反馈的多个用户。

(17)

根据(1)至(16)中任一项的信息处理方法，其中，

在调整步骤中，

对于与噪声抑制相关的参数，针对右耳助听器和左耳助听器选择相同的参数；以及

对于除噪声抑制之外的参数，针对右耳助听器和左耳助听器分别地选择参数。

(18)

一种信息处理系统，包括：

处理单元，通过使用改变声音输出单元的声音收集功能或助听器功能的参数的声学处理来产生处理声音；以及

调整单元，根据基于用于声学处理的参数和对从声音输出单元输出的处理声音的反馈而选择的参数来调整声音输出单元。

(19)

根据(18)的信息处理系统，进一步包括：

声音输出单元，输出处理声音。

(20)

根据(18)或(19)的信息处理系统，其中

声音输出单元

是助听器，并且

处理单元和调整单元

安装至助听器或向助听器输出处理声音的信号数据的终端设备。

参考标号列表

1 信息处理系统

10 调整单元

11 代理

12 奖励预测单元

20 处理单元

30 用户界面

40 外部协作设备

50 左耳助听器

60 右耳助听器。

Claims

1.一种用于信息处理系统的信息处理方法，包括：

调整步骤，根据基于用于声学处理的参数和对从所述声音输出单元输出的所述处理声音的反馈而选择的参数来调整所述声音输出单元。

2.根据权利要求1所述的信息处理方法，其中，

在所述调整步骤中，

基于用于所述声学处理的参数以及对从所述声音输出单元输出的所述处理声音的反馈执行对于适合于用户的参数的选择方法的机器学习，并且根据通过所述选择方法选择的参数调整所述声音输出单元。

3.根据权利要求2所述的信息处理方法，其中，

在所述调整步骤中，

获取用于所述声学处理的参数以及对从所述声音输出单元输出的所述处理声音的反馈，以执行预测方法的机器学习，所述预测方法使用任何参数预测对通过声学处理产生的处理声音的反馈作为奖励；以及

选择最大化所预测的奖励的参数。

4.根据权利要求1所述的信息处理方法，还包括：

处理声音输出步骤，由所述声音输出单元输出所述处理声音。

5.根据权利要求4所述的信息处理方法，其中，

在所述处理声音输出步骤中，

所述声音输出单元输出具有用于所述声学处理的不同参数的至少两种类型的处理声音，并且

在所述调整步骤中，

获取用于所述至少两种类型的处理声音的声学处理的参数以及对从所述声音输出单元输出的所述至少两种类型的处理声音的反馈。

6.根据权利要求5所述的信息处理方法，还包括：

显示步骤，显示说出所述处理声音的说话者；以及

选择接收步骤，接收从所述至少两种处理声音中选择优选的处理声音的操作。

7.根据权利要求5所述的信息处理方法，还包括：

显示步骤，显示说出所述处理声音的说话者；以及

选择接收步骤，接收选择对所述至少两种类型的处理声音的好感度的滑块操作。

8.根据权利要求3所述的信息处理方法，其中，

在所述调整步骤中，

获取已经收听了所输出的处理声音的用户手动调整所述参数的结果，以基于调整的结果执行对于所述参数的选择方法和对于所述奖励的预测方法的机器学习。

9.根据权利要求8所述的信息处理方法，其中，

在所述调整步骤中，

基于所述用户的手动调整之前和之后的参数以及所述用户使用所述参数对所述处理声音的预测反应，执行对于所述参数的选择方法和所述奖励的预测方法的机器学习。

10.根据权利要求9所述的信息处理方法，其中，

在所述调整步骤中，

基于根据所述用户的反馈是实际反应还是预测反应添加有可靠性的所述用户的反馈，执行对于所述参数的选择方法和所述奖励的预测方法的机器学习。

11.根据权利要求3所述的信息处理方法，其中，

在所述调整步骤中，

估计已经收听了所输出的处理声音的用户的情况，以针对所述用户的每种情况执行对于所述参数的选择方法和对于所述奖励的预测方法的机器学习。

12.根据权利要求11所述的信息处理方法，其中，

在所述调整步骤中，

根据通过所述用户的操作或语音输入的信息、通过全球定位系统(GPS)测量的所述用户的位置信息、通过加速度传感器检测的所述用户的加速度信息以及在管理所述用户的日程的应用程序中注册的日历信息中的至少任意一者来估计所述用户的情况。

13.根据权利要求11所述的信息处理方法，其中，

在所述调整步骤中，

根据取决于所述用户的情况的参数调整所述声音输出单元。

14.根据权利要求3所述的信息处理方法，其中，

在所述调整步骤中，

从已经收听了所述处理声音的多个用户获取用于所述声学处理的参数和对所述处理声音的反馈，以执行对于所述参数的选择方法和对于所述奖励的预测方法的机器学习。

15.根据权利要求14所述的信息处理方法，其中，

在所述调整步骤中，

从服务器中获取所述参数和所述多个用户的反馈，所述服务器存储用于所述声学处理的参数以及对于已经收听了所述处理声音的多个用户对所述处理声音的反馈。

16.根据权利要求14所述的信息处理方法，其中，

在所述调整步骤中，

基于与使用调整目标的所述声音输出单元的用户的相似性，选择获取所述反馈的多个用户。

17.根据权利要求1所述的信息处理方法，其中，

在所述调整步骤中，

18.一种信息处理系统，包括：

调整单元，根据基于用于声学处理的参数和对从所述声音输出单元输出的所述处理声音的反馈而选择的参数来调整所述声音输出单元。

19.根据权利要求18所述的信息处理系统，还包括：

所述声音输出单元，输出所述处理声音。

20.根据权利要求19所述的信息处理系统，其中，

所述声音输出单元

是助听器，并且

所述处理单元和所述调整单元

安装至所述助听器或向所述助听器输出所述处理声音的信号数据的终端设备。