CN116711330A

CN116711330A - 基于近场音频信号传递函数数据来生成个性化自由场音频信号传递函数的方法和系统

Info

Publication number: CN116711330A
Application number: CN202180088133.7A
Authority: CN
Inventors: A·V·菲利莫诺夫; A·I·埃皮辛; M·S·克莱什宁; J·里昂
Original assignee: Harman International Industries Inc
Current assignee: Harman International Industries Inc
Priority date: 2020-12-31
Filing date: 2021-12-30
Publication date: 2023-09-05
Also published as: KR20230125181A; WO2022147208A1; JP2024501617A; US20240089683A1; EP4272463A1

Abstract

描述了一种用于生成个性化声音信号传递函数的计算机实现的方法，所述方法包括：通过声音接收装置在用户的耳朵处或所述用户的所述耳朵中接收声音信号；基于所接收的声音信号来确定第一数据，其中所述第一数据表示与所述用户的耳朵相关联的第一声音信号传递函数；基于所述第一数据来确定第二数据，其中所述第二数据表示与所述用户的耳朵相关联的第二声音信号传递函数。

Description

基于近场音频信号传递函数数据来生成个性化自由场音频信号传递函数的方法和系统

背景技术

每个人对声音信号的声学感知可能由于其生物学听觉器官的不同而不同：在收听者周围传输的声音信号到达收听者的鼓膜之前，它被收听者的身体或身体的一部分(例如，收听者的肩部、骨骼或耳廓)反射、部分地吸收和传输。这些影响导致声音信号的改变。换句话讲，收听者接收到的不是最初传输的声音信号，而是修改的声音信号。

人脑能够从这种修改导出声音信号最初传输的位置。因此，考虑了不同的因素，包括：(i)耳间振幅差，即，在一只耳朵中与另一只耳朵相比接收到的声音信号的振幅差；(ii)耳间时间差，即，在一只耳朵中与另一只耳朵相比接收到的声音信号的时间差；(iii)接收到的信号的频率或脉冲响应，其中响应是收听者(特别是收听者的耳朵)和位置(特别是从其接收声音信号的方向)的特性。考虑到上述因素，可通过通常称为头部相关传递函数(HRTF)的函数来描述传输的声音信号与在收听者的耳朵中接收到的声音信号之间的关系。

这种现象可用于通过声源来模拟看起来是从相对于收听者或收听者耳朵的特定方向接收的声音信号，所述声源位于相对于收听者或收听者耳朵的不同于所述特定方向的方向上。换句话讲，可确定描述当由收听者(即在收听者的耳朵内)接收时从特定方向传输的声音信号的修改的HRTF。所述传递函数可用于生成用于改变从与特定方向不同的方向传输的后续声音信号的特性使得接收到的后续声音信号被收听者感知为是从特定方向接收的滤波器。换句话讲：可合成位于特定位置处和/或特定方向上的另外声源。因此，在通过固定位置的扬声器(例如，耳机)传输声音信号之前将适当生成的滤波器应用于声音信号可使人脑将声音信号感知为具有特定的特别是可选择的空间位置。

为了确定相对于收听者的每个可能方向(更准确地说，相对于收听者的每个耳朵)的相应HRTF可能是非常耗费成本和时间的。因此，确定作为收听者或收听者耳朵以及声音信号来自的方向的特性的频率或脉冲响应特别具有挑战性。此外，当在实验室条件下(例如，在消声室中)执行时，在合理的时间和成本范围内可生成用于特定收听者的仅有限数量的传递函数。

本发明解决了以时间和成本有效的方式生成与用户耳朵相关联的个性化声音信号传递函数(例如，HRTF的频率或脉冲响应)的问题，声音信号传递函数中的每一个与相对于用户耳朵的相应声音信号方向相关联。

发明内容

根据许多实施方案中的一个，提供了一种用于生成个性化声音信号传递函数的计算机实现的方法，所述方法包括：通过声音接收装置在用户的耳朵处或所述用户的所述耳朵中接收声音信号；基于所接收的声音信号来确定第一数据，其中第一数据表示与用户的耳朵相关联的第一声音信号传递函数；基于第一数据来确定第二数据，其中第二数据表示与用户的耳朵相关联的第二声音信号传递函数。

第一声音信号传递函数和第二声音信号传递函数可以是两者分别与用户的耳朵相关联的第一HRTF和第二HRTF的频率或脉冲响应。如此，仅需要例如在实验室环境中测量第一声音信号传递函数。可基于所测量的第一声音信号传递函数来确定第二声音信号传递函数或多个另外的第二声音信号传递函数。换句话讲，第一数据可以是第一输入数据，第二数据可以是生成数据或推断数据。

第二声音信号传递函数可适用于修改声音信号或后续声音信号。例如，使用第一HRTF或第二HRTF，声音信号或后续声音信号可被修改，即被定制，用于个性化空间音频处理。此外，可使用第一HRTF和/或第二HRTF的仅一部分(例如，特定方向(即角度或角度的组合)的频率响应)来创建定制均衡或呈现个性化音频响应以获得增强的声音质量。

替代地或另外，第一HRTF和/或第二HRTF可用作信息来消除来自HRTF(特别是第一HRTF)的设备响应的歧义，以增强信号处理(诸如ANC(主动噪声消除)、直通或低音-管理)以便使所述信号处理更有针对性和/或更有效。

根据一个实施方案，第一声音信号传递函数表示近场声音信号传递函数，和/或其中所述方法还包括在相对于用户的耳朵的近场内从声音传输装置、特别是从由用户佩戴的耳机接收声音信号。

声音接收装置可以是麦克风。麦克风可被配置为(特别是足够小以)位于用户的耳朵的耳道中。换句话讲，麦克风可在声学上阻塞耳道。麦克风和耳机可彼此通信地耦接或者各自与计算设备或服务器通信地耦接。

如此，麦克风和耳机可由用户他/她自己使用，而不需要用户处于实验室环境(诸如消声室)中。将麦克风放置在耳道中之后，用户可戴上耳机，使得麦克风可接收由耳机或耳机的扩音器传输的任何声音信号或参考声音信号。可针对用户的双耳重复这些步骤。对于每只耳朵，可从由麦克风接收的声音信号提取相应近场声音信号传递函数。

根据一个实施方案，第二声音信号传递函数表示远场或自由场声音信号传递函数。

根据一个实施方案，第二声音信号传递函数与声音信号方向相关联；所述方法还包括：确定第三数据，其中第三数据指示声音信号方向，并且其中确定第二数据进一步基于第三数据。换句话讲，第三数据可以是第二输入数据。

声音信号方向可由要传输的声音信号(例如，音乐文件)的元数据来指示。通过确定第二数据进一步基于第三数据，可修改要传输的声音信号，以唤起用户对音频信号是从相对于用户耳朵的自由场内的特定方向接收的印象。如此，当只有位于相对于用户的耳朵的有限数量的位置中的有限数量的声音信号源(例如，由用户佩戴的一对耳机)可用时，可通过模拟或合成位于相对于用户的耳朵的不同位置处的一个或多个声音信号源进一步改进用户的声音或音乐感知。因此，可仅使用有限数量的声源(例如，耳机中的两个声源)来实现“环绕声音感知”。

根据一个实施方案，所述方法还包括：在接收声音信号之前，通过声音传输装置传输声音信号；和/或基于第二数据来确定用于修改声音信号和/或后续声音信号的滤波函数；和/或通过声音传输装置传输所修改的声音信号和/或所修改的后续声音信号。

滤波函数可以是滤波器，诸如有限脉冲响应(FIR)滤波器。滤波函数可修改频域和/或时域中的声音信号。分别使用时域到频域变换或频域到时域变换，可将时域中的声音信号变换为频域中的声音信号(例如，声音信号的振幅和/或相谱)，反之亦然。时域到频域变换可以是傅里叶变换或小波变换。频域到时域变换可以是逆傅立叶变换或逆小波变换。滤波函数可修改声音信号或声音信号的一部分的振幅谱和/或相位谱和/或其频域到时域变换和/或传输声音信号或声音信号的一部分的时间延迟。

根据一个实施方案，使用基于人工智能或基于机器学习的回归算法(优选地神经网络模型)来确定第二数据，特别地其中第一数据和/或第三数据被用作神经网络模型的输入。术语“基于人工智能的回归算法”或“基于机器学习的回归算法”和术语“神经网络模型”在本文中在适当情况下可互换地使用。

使用神经网络模型，个性化声音信号传递函数(例如，与特定用户的特定耳朵相关联的特定方向的自由场HRTF的频率响应)可基于与此特定耳朵相关联的近场HRTF数据的频率响应来精确地生成(而不是从多个声音信号传递函数选择)，其中所述数据可由用户他/她自己在家里收集。

根据一个实施方案，所述方法还包括在训练过程中用于启动和/或训练回归算法的计算机实现的方法。如果尚未以其他方式获得，则执行训练过程可产生可用于确定第二数据的训练神经网络模型。

根据本发明的另一方面，提供了一种用于启动和/或训练神经网络模型的计算机实现的方法，所述方法包括：确定训练数据集，其中所述训练数据集包括多个第一训练数据和多个第二训练数据；以及基于所述训练数据集来启动和/或训练所述神经网络模型，以基于与用户的耳朵相关联的输入第一声音信号传递函数来输出与所述用户的耳朵相关联的第二声音信号传递函数；其中所述多个第一训练数据中的每一个表示与训练对象的或训练用户的耳朵或者相应训练用户的耳朵相关联的相应第一训练声音信号传递函数；其中所述多个第二训练数据中的每一个表示与所述训练用户的耳朵或所述相应训练用户的耳朵相关联的相应第二训练声音信号传递函数。

所述训练对象可以是训练用户、训练模型、训练假人等。术语培训对象和训练用户在本文中可互换地使用。所述训练数据集可在实验室环境(诸如消声室)中收集或确定。所述多个第一和第二训练数据中的每一者可与特定训练用户的特定耳朵相关联。在训练过程期间，神经网络模型可将第一训练数据的属性分配给第二训练数据的属性，使得训练的神经网络模型可被配置为从第一训练数据导出第二训练数据或第二训练数据的近似值和/或反之亦然。所收集的训练数据集可包括用于训练神经网络模型的训练子集以及用于测试和评估所训练的神经网络模型的测试子集。

例如由训练数据的测试子集包括的尚未在训练过程期间使用的新第一训练数据和第二训练数据可用于评估模型的质量或准确度。新第一训练数据可用作模型的输入，新第二训练数据可用于与模型的输出进行比较以便确定误差，例如，误差值。

根据一个实施方案，相应第一训练声音信号传递函数中的每一个表示相应近场声音信号传递函数，特别地其中输入第一声音信号传递函数表示近场声音信号传递函数。

第一训练数据可基于由位于训练用户的耳道中或附近的麦克风接收的声音信号来确定，例如，收集或生成。麦克风所接收的声音可通过训练用户的耳朵附近的声音传输装置例如通过由训练用户佩戴的耳机传输。

根据一个实施方案，相应第二训练声音信号传递函数中的每一个表示相应远场或自由场声音信号传递函数，特别地其中输出第二声音信号传递函数表示远场或自由场声音信号传递函数。

第二训练数据可基于由位于训练用户的耳道中或附近的麦克风接收的声音信号来确定，例如，收集或生成。麦克风所接收的声音可由位于训练用户或训练对象的远场或自由场内的其他声音传输装置传输。例如，每个相应第二训练声音信号由位于相对于训练用户的耳朵的自由场或远场内的相应方向上的多个声音传输装置中的相应一个传输。例如，训练用户被这些声音传输装置包围。声音传输装置可以是消声室中的设置的一部分。换句话讲，由声音传输装置传输的声音信号非反射地接收到训练用户的耳朵。

根据一个实施方案，所述相应第二训练声音信号传递函数中的每一个与相对于所述训练用户的耳朵的训练声音信号方向或相对于所述训练用户的耳朵的相应训练声音信号方向相关联；和/或其中所述训练数据集还包括第三训练数据，其中所述第三训练数据指示所述训练声音信号方向或所述相应训练声音信号方向；和/或其中所输出的第二声音信号传递函数与相对于所述用户的耳朵的输入声音信号方向相关联，特别地其中启动和/或所述训练神经网络模型以输出所述第二声音信号传递函数进一步基于所述输入声音信号方向。换句话讲，所述模型被训练来输出与声音信号方向(即，输出声音信号方向)相关联的输出第二声音信号传递函数，所述声音信号方向被用作所述模型的输入。

此外，训练声音信号方向可以是第二或输出训练声音信号方向。相应第一训练声音信号传递函数中的每一个可与相对于训练用户的耳朵的第一训练声音信号方向或相对于训练用户的耳朵的相应第一训练声音信号方向相关联，和/或其中第三训练数据指示第一训练声音信号方向和第二训练声音信号方向或相应第一训练声音信号方向和相应第二训练声音信号方向，和/或其中启动和/或训练神经网络模型以输出第二声音信号传递函数进一步基于作为模型的输入的第一声音信号方向和第二声音信号方向。

第三训练数据可针对每个第二训练数据指示相对于用户的耳朵从哪个方向接收声音信号。如此，神经网络模型可将所接收的训练声音信号的属性或者训练声音信号的频率或脉冲响应分配给从其接收训练声音信号的方向。

因此，训练的神经网络模型可被配置为基于包括表示近场频率响应的数据和表示特定方向的数据的输入数据来输出与特定方向相关联的远场或自由场频率响应。

根据一个实施方案，用于启动和/或训练神经网络模型的计算机实现的方法还包括：在相对于训练用户的耳朵的近场内，从第一声音传输装置、特别是从由训练用户佩戴的耳机在训练用户的耳朵中或在训练用户的耳朵处接收多个第一训练声音信号；以及基于所接收的多个第一训练声音信号中的每一个来确定相应第一训练声音信号传递函数；和/或在相对于训练用户的耳朵的远场或自由场内，从第二声音传输装置或相应第二声音传输装置在训练用户的耳朵中或在训练用户的耳朵处接收多个第二训练声音信号；以及基于所接收的多个第二训练声音信号中的每一个来确定相应第二训练声音信号传递函数；特别地其中训练声音信号方向或相应训练声音信号方向表示在训练用户的耳朵处或在训练用户的耳朵中相对于训练用户的耳朵接收相应第二训练声音信号的方向和/或第二声音传输装置或相应第二声音传输装置相对于训练用户的耳朵定位的方向。

根据一个实施方案，所述第三训练数据包括指示训练声音信号方向(即，输出训练声音信号方向，即与所述第二训练数据或相应第二训练声音信号传递函数相关联的训练声音信号方向)的矢量数据，并且其中所述第三训练数据包括第二矢量数据，其中所述第二矢量数据取决于所述第一矢量数据，特别是从所述第一矢量数据导出。

第三训练数据可包括相应矢量，所述相应矢量包括每个声音信号方向的相应矢量数据。第一矢量和第二矢量可分别表示笛卡尔或球面第一矢量和第二矢量。第二矢量数据可用于扩展第一矢量数据。例如，第一矢量和第二矢量可分别表示各自具有三个矢量项的三维笛卡尔第一矢量和第二矢量。第二矢量数据可用于将第一矢量从三维矢量转移到六维矢量。第一矢量可平行于或反平行于第二矢量。第二矢量的项可表示第一矢量的项的绝对值和/或因式分解值。替代地或另外，第三数据可包括零矢量，特别是与第一矢量具有相同维度的零矢量，而不是第一矢量。

通过引入一个或多个第二矢量数据，例如通过引入一个或多个扩展矢量，创建基于方向矢量的数据流并行化。因此，可在神经网络模型架构中使用一个或多个并行层或其部分。具体地，在训练过程中，可通过基于扩展矢量的不同模型输出(即不同的方向数据)的比较来训练模型。因此，可增强模型，例如，可实现模型的更好收敛。

根据本发明的另一方面，提供了一种数据处理系统，其包括：用于执行用于生成个性化声音信号传递函数的计算机实现的方法和/或用于启动和/或训练神经网络模型的计算机实现的方法的装置。

根据本发明的另一方面，提供了一种计算机可读存储介质，其包括：指令，所述指令在由数据处理系统执行时使数据处理系统执行用于生成个性化声音信号传递函数的计算机实现的方法和/或用于启动和/或训练神经网络模型的计算机实现的方法。

通过参考附图阅读以下对非限制性实施方案的描述，可以更好地理解本发明。

附图说明

当结合附图进行以下详细描述时，本公开的特征、目的和优点将变得更加明显，在附图中相似的附图标号指代相似的元件。

图1示出用于生成个性化声音信号传递函数的方法的流程图；

图2示出用于启动和/或训练神经网络模型的方法的流程图；

图3示出被配置为生成个性化声音信号传递函数的数据处理系统的结构图；并且

图4示出被配置为启动和/或训练神经网络模型的数据处理系统的结构图。

具体实施方式

图1示出描述用于生成个性化声音信号传递函数的方法100的流程图。任选步骤通过虚线指示。方法100至少部分地是计算机实施的。方法100可通过传输声音信号开始于步骤110。声音信号是已知的声音信号，特别是声音信号的频谱是已知的。声音信号可以是参考扫描，例如，对数正弦扫描，其表示声音信号频率的数量，特别是连续分布。

声音信号可由位于用户的耳朵附近，特别是在用户的耳朵的近场内的声源传输。例如，声音信号由例如由用户佩戴的扩音器或耳机的声源传输。具体地，声源可位于相对于用户的耳朵的特定距离处和特定方向上。声源可以是图3中所示的数据处理系统300的声音传输装置310。

在步骤120中，在用户的耳朵处或在用户的耳朵中接收在步骤110中传输的声音信号。声音信号可由定位在用户的耳朵中(例如，在用户的耳朵的耳道中，更具体地，在用户的耳朵的鼓膜、耳道或耳廓附近)的声音接收装置(诸如麦克风)接收。替代地，声音接收装置可位于用户的耳朵处或附近。例如，声音接收装置可以是定位在由用户佩戴的耳机中或由其包括的麦克风。可从相对于用户的耳朵的第一声音信号方向接收声音信号。声音接收装置可以是图3中所示的数据处理系统300的声音接收装置320。

在步骤130中，基于所接收声音信号，确定表示与用户的耳朵相关联的第一声音信号传递函数的第一数据。替代地，可不同地确定第一数据，即执行或不执行方法步骤110和120。例如，可从外部部件接收第一数据。

一般来讲，如本文所使用的术语“声音信号传递函数”可描述频域中的传递函数或时域中的脉冲响应。时域中的传递函数可以是脉冲响应，特别是头部相关脉冲响应(HRIR)。频域中的传递函数可以是频率响应，特别是头部相关频率响应(HRFR)。如本文所使用的术语“频率响应”可描述振幅响应、相位响应或振幅响应和相位响应两者的组合。在下文中，当使用术语“频率响应”时，意指频率响应或脉冲响应。一般来讲，通过将时间到频率变换应用于HRIR，可获得作为频域中的HRIR的表示的HRTF的频率响应。

一般来讲，声音信号传递函数可通过比较所传输的声音信号与所接收的声音信号来确定，例如提取。换句话讲，声音信号传递函数可独立于，即区别于所传输的或所接收的声音信号。声音信号传递函数可替代地是在其处或其中接收声音信号的用户的耳朵的特性。

再次参考步骤130，可从所接收的声音信号(即，在步骤120中由声音接收装置接收的声音信号)提取第一声音信号传递函数。传递函数的提取可进一步基于在步骤120中由声音接收装置接收到的声音信号与在步骤120中由声音传输装置传输的声音信号的比较。比较可在特定频率范围内，特别是在参考扫描覆盖的频率范围内执行。

如上所述，在步骤110中，在相对于用户的耳朵的近场内传输声音信号。因此，第一声音信号传递函数是近场声音信号传递函数，即，近场频率响应。一般来讲，与用户的耳朵相关联的声音信号传递函数可取决于声音传输装置与用户的耳朵之间的距离。换句话讲，与用户的耳朵相关联的声音信号传递函数可取决于声音信号是从位于相对于用户的耳朵近场、远场还是(近似)自由场内的声源传输的。

位于相对于用户的耳朵的近场内的声源可位于相对靠近或在用户的耳朵的附近的位置。位于相对于用户的耳朵的远场内的声源可位于相对远离用户的耳朵的位置。位于(近似)自由场内的声源可以是位于没有(或几乎/近似没有，或至少较少或相对少)声音反射发生的远场内的声音信号。当使用术语“自由场”时，意指自由场或近似自由场。在适当情况下，术语“自由场”、“近似自由场”和“远场”可在本文中互换地使用。位于相对于用户的耳朵的近场/自由场内的声源对应于位于相对于声源的近场/自由场内的用户的耳朵。

此外，与用户的耳朵相关联的声音信号传递函数可能取决于相对于用户的耳朵的近场、远场或自由场内的方向。在步骤110中在近场内传输的声音信号可分别相对于用户的耳朵或相对于基准轴线以或近似以零度(0°)的仰角和方位角来传输，基准轴线包括例如分别表示基准点、用户的耳朵中的一个的中心或鼓膜的两个点。替代地，步骤110中在近场内传输的声音信号可以或近似以不同于零度的仰角和/或方位角来传输。

第一数据，即与用户的耳朵相关联的第一声音信号传递函数或第一频率响应可由计算装置(例如，数据处理系统300的计算装置330)确定，其中计算装置330可与声音传输装置310和/或声音接收装置320通信地耦接。

在步骤150中，基于所确定的第一数据，确定第二数据。第二数据可由计算装置330，特别是计算机装置330的神经网络模块331确定，特别是生成。第二数据表示与用户的耳朵相关联的第二声音信号传递函数。第二声音信号传递函数可不同于第一声音信号传递函数。第二声音信号传递函数可以是与用户的耳朵相关联的远场或自由场声音信号传递函数或自由场声音信号传递的近似。换句话讲，在步骤150中，基于与用户的耳朵相关联的近场频率响应来确定与用户的耳朵相关联的远场或自由场频率响应。可使用神经网络模型来执行所述确定，所述神经网络模型可使用训练方法200来训练，如参考图2所描述的。

第二声音信号传递函数可进一步与相对于用户的耳朵的声音信号方向相关联，所述声音信号方向不同于在步骤120中从其接收声音信号的方向。声音信号方向可由计算装置(例如，图3中所示的计算装置330)生成或确定或预先确定。

例如，声音信号方向表示每个0°的仰角和方位角，或者其中至少一个不同于0°的仰角和方位角。此外，第二声音信号传递函数可以是远场、自由场或近似自由场声音信号传递函数。可基于第三数据来确定与声音信号方向相关联的第二数据，即第二声音信号传递函数，其中第三数据指示声音信号方向。指示声音信号方向的第三数据可以是预先确定的，或者可任选地在步骤150中确定第二数据之前在步骤140中确定。

在已经在步骤150中确定与声音信号方向相关联的第二数据之后，可基于进一步或后续确定的第三数据和所确定的第一数据，即所确定的第一声音信号传递函数来确定后续第二数据。换句话讲，可基于步骤130中确定的第一数据来确定第二数据集，其中第二数据集包括多个相应第二数据。相应第二数据可各自与相应第三数据相关联。相应第三数据可各自指示相应的、特别是相应的不同声音信号方向。换句话讲，可通过重复步骤140和150来确定第二数据集，其中在每次重复中，确定不同的第二和/或第三数据。例如，在每次重复中，例如由用户确定不同的第三数据。不同的第三数据的确定然后导致不同的第二数据的确定。

替代地，在已经在步骤150中确定与声音信号方向相关联的第二数据之后，可基于步骤150中初始确定的第二数据来确定后续第二数据。所述后续第二数据可各自与相应的不同声音信号方向相关联。所述确定可例如由相应训练的神经网络模型来执行。神经网络模型和神经网络模型的训练过程可类似于下面描述的神经网络模型和训练过程来构造或训练，例如，其中远场或自由场声音信号传递函数是第二远场或自由场声音信号传递函数，并且其中(训练)近场声音信号传递函数被(训练)第一远场或自由场声音信号传递函数代替。

任选地，在步骤160中，确定、特别是生成滤波函数，特别是滤波器，例如FIR(有限脉冲响应)滤波器。滤波函数是基于第二数据，特别是基于第二数据和第一数据确定的。换句话讲，滤波函数可基于所生成的远场或自由场频率响应和所确定的近场频率响应来确定。可将滤波函数应用于在步骤110中传输的声音信号或任何其他例如后续声音信号。当将滤波函数应用于声音信号时，特性，特别是声音信号的频谱或时间上的脉冲分布，改变。当传输改变的声音信号时，在用户的耳朵中接收到修改的改变的声音信号(由用户的身体修改，如上所解释)。所接收的修改的改变的声音信号唤起用户的印象，即声音信号是从位于与第二声音信号传递函数相关联的声音信号方向上且在相对于用户的耳朵的自由场内的声源接收的。换句话讲，修改的改变的声音信号可对应于或近似对应于在用户的耳朵中接收的另一修改的声音信号，所述另一修改的声音信号是从位于所述声音信号方向上且在自由场内的另一声源接收的。换句话讲，通过将滤波函数应用于声音信号，模拟或虚拟化如上所述通过用户的身体的声音信号的修改，使得声音信号—(仅)被耳朵或耳朵的部分修改—被感知为通过身体的其他部分修改，并且因此被感知为从特定方向接收。

在步骤170中，可传输修改的声音信号或修改的后续声音信号。修改的声音信号或修改的后续声音信号可由最初从其接收声音信号的声源(例如，由用户佩戴的耳机或图3中所示的数据处理系统300的声音传输装置310)传输。

可针对用户的第一耳朵和用户的第二耳朵两者执行方法100或方法100的一部分，特别是步骤130和150。如此，可获得两个第二数据集，所述数据集各自分别与用户的第一耳朵和第二耳朵中的一者相关联。在方法100之前，在用于启动和/或训练神经网络模型的方法期间启动和/或训练在步骤150中用于确定第二数据的神经网络模型。

图2示出用于启动和/或训练神经网络模型的方法200的流程图。任选步骤通过虚线指示。启动和/或训练神经网络模型以基于神经网络模型的第一输入来输出生成与特定用户的耳朵相关联的声音信号传递函数，其中第一输入是与特定用户的耳朵相关联的输入声音信号传递函数，例如，在方法100的步骤130中确定的第一数据。方法200可由图4中所示的数据处理系统400执行。

更具体地，输入声音信号传递函数可表示近场声音信号传递函数。输入声音信号传递函数可基于在特定用户的耳朵中或在特定用户的耳朵处接收的特定声音信号(例如，在方法100的步骤120中接收的声音信号)来确定。所生成的声音信号传递函数可表示与同一用户的耳朵相关联的远场、自由场或近似自由场声音信号传递函数。

方法200开始于步骤250。在步骤250中，确定训练数据集。训练数据集包括多个第一训练数据和多个第二训练数据。在步骤260中，基于训练数据集，启动和/或训练神经网络模型以至少基于神经网络模型的第一输入来输出所生成的声音信号传递函数。方法步骤250和260可由数据处理系统400的计算装置440，特别是神经网络启动/训练模块441来执行。例如，基本前馈神经网络可用作初始模板。

多个第一训练数据包括第一训练数据集，其中第一训练数据中的每一个表示与训练用户的耳朵相关联的相应第一训练声音信号传递函数。第一训练声音信号传递函数中的每一个可与同一训练用户的耳朵或与相应不同训练用户的耳朵相关联。例如，相应第一训练声音信号传递函数可以是相应近场训练声音信号传递函数，即，相应第一训练声音信号传递函数可各自表示相应频率响应或脉冲响应，特别是近场频率响应或脉冲响应。第一训练数据可在实验室环境中生成。

多个第二训练数据包括第二训练数据集，其中第二训练数据中的每一个表示与对应第一训练声音信号传递函数相同的训练用户的或相同的相应训练用户的耳朵相关联的相应第二训练声音信号传递函数。相应第二训练声音信号传递函数中的每一个可表示相应远场、自由场或近似自由场声音信号传递函数。同样，第二训练数据可在实验室环境中确定。

相应第二训练声音信号传递函数中的每一个可与相对于训练用户的耳朵的单个训练声音信号方向或相对于训练用户的耳朵的相应训练声音信号方向相关联。训练数据集还可包括多个第三训练数据。第三训练数据可指示训练声音信号方向或相应训练声音信号方向。启动和/或生成神经网络模型可进一步基于第三训练数据。

所生成的声音信号传递函数可与相对于特定用户的耳朵的所生成的声音信号方向相关联。所生成的声音信号方向可由特定用户预先确定或指示或者由计算装置(例如，数据处理系统300的计算装置330)指示。计算装置可与由特定用户佩戴的耳机通信地耦接或由其包括。替代地，所生成的方向可由要通过声音传输装置(例如，数据处理系统300的声音传输装置310，或由特定用户佩戴的耳机包括的扩音器)传输的声音信号指示。要传输的声音信号可由计算装置(特别是由计算装置包括的存储器332)存储，和/或由计算装置从外部部件接收。此外，第一、第二和/或第三数据和/或神经网络模型和任何其他所需数据(诸如神经网络架构和训练工具)可存储在存储模块332中。此外，神经网络训练过程、第一和第二训练信号和/或第一、第二和第三训练数据可由计算装置430(特别是由存储模块432)存储。

所生成的声音信号方向可以是神经网络模型的第二输入。换句话讲，启动和/或训练神经网络模型以基于相对于特定用户的耳朵的输入生成的声音信号方向来输出所生成的声音信号传递函数。换句话讲，启动和/或训练神经网络模型以基于与要生成的输出声音信号传递函数相关联的方向来输出所生成的声音信号传递。所述方向用作例如由第三数据包括的模型的输入。

如图2所示，可通过方法步骤250和260之前的方法步骤210至240来确定或生成训练数据集。在步骤210中，传输第一训练声音信号。具体地，传输多个第一训练声音信号。第一训练声音信号可由第一声音传输装置(例如，数据处理系统400的第一声音传输装置410)传输。第一声音传输装置位于相对于训练用户的耳朵的近场内。第一声音传输装置位于相对于训练用户的耳朵的第一训练方向上。第一训练方向可以是固定的和/或预先确定的。第一训练方向可表示分别相对于训练用户的耳朵或相对于训练基准轴线的零度(0°)的仰角和方位角或由它们来描述，训练基准轴线包括例如分别表示基准点、训练用户的耳朵中的一个的中心或鼓膜的两个点。

第一声音传输装置可以是位于由训练用户佩戴的耳机中、特别是在实验室环境中(例如，在消音室中)的扩音器。可在步骤230中通过声音接收装置或训练声音接收装置(例如，数据处理系统400的声音接收装置430)来接收第一训练声音信号，所述声音接收装置或训练声音接收装置位于训练用户的耳朵中或训练用户的耳朵处，特别是位于用户的耳朵的鼓膜、耳道或耳廓附近。声音接收装置或训练声音接收装置可以是麦克风。

在步骤220中，可传输第二训练声音信号，特别是多个第二训练声音信号。第二训练声音信号可由一个或多个第二声音传输装置或第二训练声音传输装置(例如，数据处理系统400的第二声音传输装置420)传输。第二声音传输装置可位于相对于训练用户的耳朵的远场或自由场或近似自由场内。第二声音传输装置可以是围绕训练用户布置的一个或多个扩音器，特别是在实验室环境(例如，消声室)内。

一个或多个第二声音传输装置可位于相对于训练用户的耳朵的一个或多个第二训练方向上。第二训练方向可以是固定的和/或预先确定的或可调整的。第二训练方向中的一个可由分别相对于训练用户的耳朵或相对于基准轴线的零度(0°)的仰角和方位角来描述，如上所述，基准轴线包括例如分别表示基准点、训练用户的耳朵中的一个的中心或鼓膜的两个点。第二训练方向中的至少一个可分别表示不同于零度(0°)的仰角和/或方位角或由它们来描述。第二训练方向可逐渐分别覆盖特别是在0度与360度之间的仰角范围和/或方位角范围。

在步骤240中，由声音接收装置或训练声音接收装置(例如，数据处理系统400的声音接收装置430)来接收第二训练声音信号，所述声音接收装置或训练声音接收装置位于训练用户的耳朵中或训练用户的耳朵处，特别是位于用户的耳朵的鼓膜、耳道或耳廓附近。

基于所接收的第一训练声音信号或所接收的多个第一训练声音信号，可在步骤250中确定第一训练数据。基于所接收的第二训练声音信号或所接收的多个第二训练声音信号，可在步骤250中确定第二训练数据和/或第三训练数据。替代地，第三训练数据可由训练系统例如数据处理系统400，特别是计算装置440或神经网络启动/训练模块441单独地确定，例如向它们指示。

第三训练数据可包括指示第一训练声音信号方向或第二训练声音信号方向的第一矢量数据。例如，第一矢量数据可表示第一训练声音信号方向或第二训练声音信号方向的相应第一球面或笛卡尔矢量。第一矢量数据可以描述第一n维矢量。替代地或另外，第三训练数据可包括第二矢量数据，特别地其中第二矢量数据依赖于第一矢量数据或从第一矢量数据导出。第二矢量数据可描述第二m维矢量。更具体地，第一矢量可具有正和/或负矢量项。第二向量可仅具有正或仅非负矢量项。例如，第二矢量的矢量项可以是第一矢量的对应矢量项的绝对值。另外或替代地，第二矢量的矢量项可表示乘以一个因子或分别乘以相应因子的第一矢量的对应矢量项。第一矢量数据和第二矢量数据可由描述(m+n)维矢量的组合矢量数据包括。替代地，第二矢量数据和零矢量可由组合(m+n)矢量包括。因此，可增强训练过程期间的神经网络模型的收敛过程。

可使用针对神经网络模型的不同优化算法，例如Adam优化器。可使用评估训练数据集来评估所启动和/或训练的神经网络模型。评估训练数据集可包括尚未包括在训练过程中的第一、第二和第三训练数据。具体地，评估训练数据集的第一训练数据和第三训练数据可用作所启动和/或所训练的神经网络模型的输入。可将神经网络模型的对应输出与评估训练数据集的第二训练数据进行比较。基于比较，可确定神经网络模型的误差值。可将所确定的误差值与误差阈值进行比较。基于与误差阈值的比较，训练模型(例如，数据处理系统400的神经网络启动/训练模块431)可确定是继续还是终止训练过程。例如，如果误差值超过误差阈值则继续训练过程，否则，即，如果误差值低于误差阈值，则可终止训练过程。

图3示出被配置为执行方法100的数据处理系统。数据处理系统300包括声音传输装置310、声音接收装置320和计算装置330。计算装置330包括神经网络模块331和存储模块332。

声音传输装置310被配置为位于相对于用户的耳朵的近场内，即，在用户的耳朵附近。声音传输装置310可以是定位在由用户佩戴的耳机中或由其包括的扩音器。

声音接收装置320被配置为位于相对于用户的耳朵的近场内，特别是在用户的耳朵中，即，在用户的耳道中。更具体地，声音接收装置被配置为位于或定位在用户的耳朵的耳廓附近，优选地在用户的耳朵的鼓膜附近。替代地，声音接收装置可定位在用户的耳朵处或附近。声音接收装置320可以是麦克风。

声音接收装置320可与声音传输装置(例如，由用户佩戴的耳机)分离或由其包括。计算机装置330可与声音传输装置分离或由其包括。声音传输装置310和声音接收装置320例如通过有线连接和/或无线连接(例如，通过服务器340)通信地耦接到计算装置330。同样，声音传输装置310可直接地和/或通过服务器340通信地耦接到声音接收装置320。

要由声音传输装置传输的声音信号在声音传输装置310与计算装置330之间传送。由声音接收装置320接收的声音信号在声音接收装置320与计算装置330之间传送。

图4示出被配置为执行方法200的数据处理系统400。数据处理系统400包括第一声音传输装置410、第二声音传输装置450、声音接收装置420和计算装置430。计算装置430包括神经网络启动/训练模块431和存储模块432。

第一声音传输装置410可与数据处理系统300的声音传输装置310相同或类似。第一声音传输装置410被配置为位于相对于用户的耳朵的近场内，即，在用户的耳朵附近。第一声音传输装置410可以是定位在由用户佩戴的耳机中或由其包括的扩音器。

第二声音传输装置450被配置为位于相对于用户的耳朵的远场内，优选地自由场或近似自由场中。第二声音传输装置450可以是围绕用户定位的一个或多个扩音器，例如在实验室环境(诸如消声室)中。

声音接收装置420可与数据处理系统300的声音接收装置320相同或类似。这些声音接收装置420被配置为位于相对于用户的耳朵的近场内，特别是在用户的耳朵中，即，在用户的耳道中。更具体地，声音接收装置被配置为位于或定位在用户的耳朵的耳廓附近，优选地在用户的耳朵的鼓膜附近。替代地，声音接收装置可定位在用户的耳朵处或附近。声音接收装置420可以是麦克风。

第一声音传输装置410和第二声音传输装置450和声音接收装置420例如通过有线连接和/或无线连接(例如，通过服务器440)通信地耦接到计算装置430。同样，第一声音传输装置410和第二声音传输装置450和/或声音接收装置420可各自直接和/或间接地(例如，通过服务器440)通信地耦接到数据处理系统400的其他部件中的至少一个。

Claims

1.一种用于生成个性化声音信号传递函数的计算机实现的方法，所述方法包括：

通过声音接收装置在用户的耳朵处或在所述用户的所述耳朵中接收声音信号；

基于所接收的声音信号来确定第一数据，其中所述第一数据表示与所述用户的所述耳朵相关联的第一声音信号传递函数；以及

基于所述第一数据来确定第二数据，其中所述第二数据表示与所述用户的所述耳朵相关联的第二声音信号传递函数。

2.如权利要求1所述的计算机实现的方法，其中：

所述第一声音信号传递函数表示近场声音信号传递函数中的至少一个；或者

所述方法还包括在相对于所述用户的所述耳朵的近场内从声音传输装置接收所述声音信号。

3.如权利要求1所述的计算机实现的方法，其中所述第二声音信号传递函数表示远场或自由场声音信号传递函数。

4.如权利要求1所述的计算机实现的方法，其还包括以下中的至少一者：

在接收所述声音信号之前，通过声音传输装置传输所述声音信号；

基于所述第二数据来确定用于修改所述声音信号或后续声音信号中的至少一者的滤波函数；或者

通过所述声音传输装置传输所修改的声音信号或所修改的后续声音信号中的至少一者。

5.如权利要求1所述的计算机实现的方法，其中：

所述第二声音信号传递函数与声音信号方向相关联；并且

所述方法还包括确定第三数据，其中所述第三数据指示所述声音信号方向，并且其中确定所述第二数据进一步基于所述第三数据。

6.如权利要求5所述的计算机实现的方法，其中：

所述第二数据使用基于人工智能、基于机器学习或基于神经网络的回归算法来确定；并且

所述第一数据或所述第三数据中的至少一者用作所述回归算法的输入。

7.如权利要求6所述的计算机实现的方法，其还包括：

确定训练数据集，其中所述训练数据集包括多个第一训练数据和多个第二训练数据；以及

基于所述训练数据集来启动、训练或启动并训练所述回归算法，以基于与所述用户的所述耳朵相关联的输入第一声音信号传递函数来输出与所述用户的所述耳朵相关联的第二声音信号传递函数；

其中所述多个第一训练数据中的每一个表示与训练对象的耳朵或相应训练对象的耳朵相关联的相应第一训练声音信号传递函数；

其中所述多个第二训练数据中的每一个表示与所述训练对象的所述耳朵或所述相应训练对象的所述耳朵相关联的相应第二训练声音信号传递函数。

8.一种用于启动、训练或启动并训练基于人工智能、基于机器学习或基于神经网络的回归算法的计算机实现的方法，所述方法包括：

基于所述训练数据集来启动、训练或启动并训练所述回归算法，以基于与用户的耳朵相关联的输入第一声音信号传递函数来输出与所述用户的所述耳朵相关联的第二声音信号传递函数；

9.如权利要求8所述的计算机实现的方法，其中：

所述相应第一训练声音信号传递函数中的每一个表示相应近场声音信号传递函数；并且

所述输入第一声音信号传递函数表示近场声音信号传递函数。

10.如权利要求8所述的计算机实现的方法，其中：

所述相应第二训练声音信号传递函数中的每一个表示相应远场或自由场声音信号传递函数；并且

所输出的第二声音信号传递函数表示远场或自由场声音信号传递函数。

11.如权利要求8所述的计算机实现的方法，其中：

所述相应第二训练声音信号传递函数中的每一个与相对于所述训练对象的所述耳朵的训练声音信号方向或相对于所述训练对象的所述耳朵的相应训练声音信号方向相关联；

所述训练数据集还包括第三训练数据，其中所述第三训练数据指示所述训练声音信号方向或所述相应训练声音信号方向；并且

其中所输出的第二声音信号传递函数与相对于所述用户的所述耳朵的输入声音信号方向相关联，特别地其中启动、训练或启动并训练所述回归算法以输出所述第二声音信号传递函数进一步基于所述输入声音信号方向。

12.如权利要求11所述的计算机实现的方法，其中：

所述第三训练数据包括指示所述训练声音信号方向的第一矢量数据；并且

其中所述第三训练数据包括第二矢量数据，其中所述第二矢量数据取决于所述第一矢量数据或从所述第一矢量数据导出。

13.如权利要求11所述的计算机实现的方法，其还包括：

在相对于所述训练对象的所述耳朵的近场内，从由所述训练对象佩戴的第一声音传输装置在所述训练对象的所述耳朵中或在所述训练对象的所述耳朵处接收多个第一训练声音信号，并且基于所接收的多个第一训练声音信号中的每一个来确定所述相应第一训练声音信号传递函数；或者

在相对于所述训练对象的所述耳朵的远场或自由场内，从相应第二声音传输装置在所述训练对象的所述耳朵中或在所述训练对象的所述耳朵处接收多个第二训练声音信号，并且基于所接收的多个第二训练声音信号中的每一个来确定所述相应第二训练声音信号传递函数；

其中所述训练声音信号方向或所述相应训练声音信号方向表示在所述训练对象的所述耳朵处或在所述训练对象的所述耳朵中相对于所述用户的所述耳朵接收相应第二训练声音信号的方向或者所述相应第二声音传输装置相对于所述训练对象的所述耳朵定位的所述方向中的至少一者。

14.一种数据处理系统，其包括：用于执行如权利要求1至13中任一项所述的方法的计算装置。

15.一种计算机可读存储介质，其包括：指令，所述指令在由计算装置执行时使所述计算装置执行如权利要求1至13中任一项所述的方法。