CN115410583A

CN115410583A - 基于机器学习的用于音频编码和解码的基于感知的损失函数

Info

Publication number: CN115410583A
Application number: CN202210834906.8A
Authority: CN
Inventors: R·M·费杰吉恩; G·A·戴维森; 吴致暐; V·库玛
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2018-04-11
Filing date: 2019-04-10
Publication date: 2022-11-29
Also published as: JP7387634B2; CN112105902A; EP3775821A1; JP2021521476A; CN112105902B; US20210082444A1; US11817111B2; JP2024003166A; US20240079019A1; WO2019199995A1

Abstract

本公开涉及基于机器学习的用于音频编码和解码的基于感知的损失函数。提供了用于训练神经网络以及用于通过训练的神经网络来实现音频编码器和解码器的计算机实现的方法。神经网络可以接收输入音频信号，生成编码音频信号并且对编码音频信号进行解码。损失函数生成模块可以接收解码音频信号和真值音频信号，并且可以生成与解码音频信号相对应的损失函数值。生成损失函数值可涉及应用心理声学模型。可以基于损失函数值来训练神经网络。训练可涉及更新神经网络的至少一个权重。

Description

基于机器学习的用于音频编码和解码的基于感知的损失函数

本申请是申请号为201980030729.4、申请日为2019年4月10 日、发明名称为“基于机器学习的用于音频编码和解码的基于感知的损失函数”的发明专利申请的分案申请。

技术领域

本公开涉及音频信号处理。特别地，本公开涉及对音频数据进行编码和解码。

背景技术

音频编解码器是在给定特定音频文件或流媒体音频格式的情况下能够编码和/或解码数字音频数据的设备或计算机程序。音频编解码器的主要目标通常是用最小位数表示音频信号，同时将音频质量保持在适合于该位数的程度。这种音频数据压缩既可以减小音频数据所需的存储空间，又可以减小音频数据传输所需的带宽。

发明内容

文中公开了各种音频处理方法。一些这样的方法可以是计算机实现的音频处理方法，其包括通过经由控制系统实现的神经网络接收输入音频信号，该控制系统包括一个或多个处理器以及一个或多个非暂时性存储介质。这样的方法可包括通过神经网络并基于输入音频信号生成编码音频信号。一些这样的方法可包括通过控制系统对编码音频信号进行解码，以产生解码音频信号，并且通过经由控制系统实现的损失函数生成模块接收解码音频信号和真值(ground truth)音频信号。这样的方法可包括通过损失函数生成模块生成与解码音频信号相对应的损失函数值。生成损失函数值可包括应用心理声学模型。这样的方法可包括基于损失函数值训练神经网络。训练可包括更新神经网络的至少一个权重。

根据一些实现，训练神经网络可以包括基于损失函数值的反向传播。在一些示例中，神经网络可以包括自编码器。训练神经网络可包括改变与神经网络的至少一个权重相对应的至少一个非暂时性存储介质位置的物理状态。

在一些实现中，神经网络的第一部分可以生成编码音频信号，并且神经网络的第二部分可以解码编码音频信号。在一些这样的实现中，神经网络的第一部分可以包括输入神经元层和多个隐藏神经元层。在某些情况下，输入神经元层可包括比最终隐藏神经元层更多的神经元。神经网络的第一部分的至少一些神经元可以被配置有修正线性单元(ReLU)激活函数(activation function)。在一些示例中，神经网络的第二部分的隐藏层中的至少一些神经元可以被配置具有 ReLU激活函数，并且第二部分的输出层中的至少一些神经元可以被配置具有S型(Sigmoidal)激活函数。

根据一些示例，心理声学模型可以至少部分地基于一个或多个心理声学掩蔽阈值。在一些实现中，心理声学模型可以包括对外耳传递函数建模，分组为临界频带，频域掩蔽(包括但不限于水平相关的扩展)，对频率相关的听力阈值进行建模和/或计算噪声掩蔽比。在一些示例中，损失函数可以涉及计算平均噪声掩蔽比，并且训练可以涉及使平均噪声掩蔽比最小化。

文中公开了一些音频编码方法和设备。在一些示例中，音频编码方法可包括通过控制系统接收当前输入的音频信号，该控制系统包括一个或多个处理器以及可操作地耦合到一个或多个处理器的一个或多个非暂时性存储介质。该控制系统被配置为实现音频编码器，该音频编码器包括已经根据文中公开的方法中的任一个被训练的神经网络。这样的方法可包括经由音频编码器以压缩音频格式编码当前输入的音频信号，并且输出压缩音频格式的编码音频信号。

文中公开了一些音频解码方法和设备。在一些示例中，音频解码方法可以包括：通过控制系统接收当前输入的压缩音频信号，该控制系统包括一个或多个处理器以及可操作地耦合到一个或多个处理器的一个或多个非暂时性存储介质。控制系统被配置为实现音频解码器，该音频解码器包括已经根据文中公开的方法中的任一个被训练的神经网络。这样的方法可包括经由音频解码器解码当前输入的压缩音频信号，并输出解码音频信号。一些这样的方法可包括经由一个或多个换能器再现解码音频信号。

可以由一个或多个设备根据存储在一种或多种非暂时性介质上的指令(例如，软件)来执行文中所述的方法中的一些或全部。这样的非暂时性介质可以包括诸如文中所述的那些的存储设备，包括但不限于随机存取存储器(RAM)设备，只读存储器(ROM)设备等。因此，可以在其上存储有软件的非暂时性介质中实现本公开中描述的主题的各个创新方面。该软件可以例如包括用于控制至少一个设备以处理音频数据的指令。该软件可以例如由诸如文中公开的那些的控制系统的一个或多个组件执行。该软件可以例如包括用于执行文中公开的方法中的一种或多种的指令。

可以经由装置来实现本公开的至少一些方面。例如，一个或多个设备可以被配置用于至少部分地执行文中公开的方法。在一些实施方式中，一种装置可以包括接口系统和控制系统。接口系统可以包括一个或多个网络接口、控制系统与存储器系统之间的一个或多个接口、控制系统与另一设备之间的一个或多个接口、和/或一个或多个外部设备接口。控制系统可包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA) 或其他可编程逻辑设备、离散门或晶体管逻辑器件、或离散硬件组件中的至少一者。因此，在一些实现中，控制系统可以包括一个或多个处理器以及可操作地耦合到一个或多个处理器的一个或多个非暂时性存储介质。

根据一些这样的示例，该装置可以包括接口系统和控制系统。该控制系统可以例如被配置用于实现文中公开的方法中的一种或多种。例如，控制系统可以被配置为实现音频编码器。音频编码器可以包括已经根据文中公开的方法中的一种或多种训练的神经网络。控制系统可以被配置用于接收当前输入的音频信号，用于以压缩音频格式对当前输入的音频信号进行编码，以及用于(例如经由接口系统)输出压缩音频格式的编码音频信号。

替代地或附加地，控制系统可以被配置为实现音频解码器。音频解码器可以包括已经根据以下过程被训练的神经网络，该过程包括通过该神经网络并通过接口系统接收输入的训练音频信号，并通过神经网络且基于输入的训练音频信号生成编码的训练音频信号。该过程可以包括经由控制系统对编码的训练音频信号进行解码以产生解码的训练音频信号，并通过经由控制系统实现的损失函数生成模块来接收解码的训练音频信号和真值音频信号。该过程可以包括通过损失函数生成模块生成与解码的训练音频信号相对应的损失函数值。生成损失函数值可能包括应用心理声学模型。该过程可包括基于损失函数值训练神经网络。

音频编码器可以进一步被配置为接收当前输入的音频信号，以压缩音频格式对当前输入的音频信号进行编码，以及输出压缩音频格式的编码音频信号。

在一些实现中，公开的系统可以包括音频解码装置。该音频解码装置可以包括接口系统和控制系统，该控制系统包括一个或多个处理器以及可操作地耦合到一个或多个处理器的一个或多个非暂时性存储介质。该控制系统可以被配置为实现音频解码器。

音频解码器可以包括已经根据以下过程被训练的神经网络，该过程包括通过神经网络并经由接口系统接收输入的训练音频信号，并且通过神经网络且基于输入的训练音频信号生成编码的训练音频信号。该过程可以包括经由控制系统对编码的训练音频信号进行解码以产生解码的训练音频信号，并通过经由控制系统实现的损失函数生成模块来接收解码的训练音频信号和真值音频信号。该过程可以包括通过损失函数生成模块生成与解码的训练音频信号相对应的损失函数值。生成损失函数值可包括应用心理声学模型。该过程可包括基于损失函数值训练神经网络。

音频解码器可以进一步被配置为接收压缩音频格式的当前输入的编码音频信号，用于以解压缩音频格式对当前输入的编码音频信号进行解码，并且用于输出解压缩音频格式的解码音频信号。根据一些实现，该系统可以包括被配置用于再现解码音频信号的一个或多个换能器。

说明书中描述的主题的一种或多种实现的细节在附图和以下描述中被阐述。其他特征、方面和优点将从说明书、附图和权利要求书变得显而易见。请注意，以下附图的相对尺寸可能未按比例绘制。各个附图中相同的附图标记和标志通常指示相同的元件。

附图说明

图1是示出可以被配置为执行文中公开的方法中的至少一些的装置的组件的示例的框图。

图2示出了根据一个示例的用于根据基于感知的损失函数来实现机器学习的过程的框图。

图3示出了根据文中公开的一些实现的神经网络训练过程的示例。

图4A-4D示出了适合于实现文中公开的一些方法的神经网络的替代示例。

图5A是概述根据一个示例的训练用于音频编码和解码的神经网络的方法的块的流程图。

图5B是概述根据一个示例的使用经训练的神经网络进行音频编码的方法的块的流程图。

图5C是概述根据一个示例的使用经训练的神经网络进行音频解码的方法的块的流程图。

图6是示出损失函数生成模块的框图，该损失函数生成模块被配置为基于均方误差生成损失函数。

图7A是近似人耳道的典型声学响应的函数的曲线图。

图7B示出了损失函数生成模块，其被配置为基于人耳道的典型声学响应来生成损失函数。

图8示出了损失函数生成模块，其被配置为基于分带操作来生成损失函数。

图9A示出了根据一些示例的频率掩蔽中所包含的过程。

图9B示出了扩展函数的示例。

图10示出了损失函数生成模块的替代性实现的一个示例。

图11显示了针对一些公开的实现的客观测试结果的示例。

图12显示了由使用各种损失函数训练的神经网络产生的对应于男性讲话者的音频数据的主观测试结果的示例。

图13显示了由使用与图12中所示相同类型的损失函数训练的神经网络产生的对应于女性讲话者的音频数据的主观测试结果的示例。

具体实施方式

以下描述针对出于描述本公开的一些创新方面的目的的某些实现以及其中可以实现这些创新方面的上下文的示例。然而，文中的教导可以以各种不同的方式被应用。而且，所描述的实施例可以以各种硬件、软件、固件等来实现。例如，本申请的各方面可以至少部分地体现在装置、包括多于一个的设备的系统、方法、计算机程序产品等中。因此，本申请的各方面可以采取硬件实施例、软件实施例(包括固件、驻留软件、微代码等)和/或结合了软件和硬件方面两者的实施例的形式。这样的实施例在文中可以被称为“电路”、“模块”或“引擎”。本申请的一些方面可以采取在一种或多种非暂时性介质中体现的计算机程序产品的形式，在非暂时性介质上体现有计算机可读程序代码。这样的非暂时性介质可以例如包括硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁性存储设备或上述的任意适当组合。因此，本公开的教导不旨在限于附图中示出和/或文中描述的实现，而是具有广泛的适用性。

发明人研究了与包括但不限于音频数据编码和解码的音频数据处理有关的各种机器学习方法。特别地，发明人研究了使用与人类感知声音的方式有关的损失函数来训练不同类型的神经网络的各种方法。根据通过神经网络编码产生的音频数据，评估了这些损失函数中的每一个的有效性。根据客观和主观标准评估了音频数据。在一些示例中，由已经通过使用基于均方误差的损失函数训练的神经网络处理的音频数据被用作评估根据文中公开的方法产生的音频数据的基础。在某些情况下，通过主观标准进行评估的过程涉及让人类听众评估所得的音频数据并获得听众的反馈。

文中公开的技术基于上述研究。本公开提供了使用基于感知的损失函数来训练用于音频数据编码和/或解码的神经网络的各种示例。在一些示例中，基于感知的损失函数是基于心理声学模型的。心理声学模型可以例如至少部分地基于一个或多个心理声学掩蔽阈值。在一些示例中，心理声学模型可以包括对外耳传递函数进行建模，将音频数据分组为临界频带，频域掩蔽(包括但不限于水平相关的扩展)，对频率相关的听力阈值进行建模，和/或噪声掩蔽比的计算。在一些实施方式中，损失函数可以涉及计算平均噪声掩蔽比。在一些这样的示例中，训练过程可以包括最小化平均噪声掩蔽比。

图1是示出可以被配置为执行文中公开的方法中的至少一些的装置的组件的示例的框图。在一些示例中，装置105可以是或可以包括个人计算机，台式计算机或被配置为提供音频处理的其他本地设备。在一些示例中，装置105可以是或可以包括服务器。根据一些示例，装置105可以是被配置为经由网络接口与服务器通信的客户端设备。可以经由硬件、经由存储在非暂时性介质上的软件、经由固件和 /或通过其组合来实现装置105的组件。图1所示的部件的类型和数量以及文中公开的其他附图仅作为示例被示出。替代性实现可以包括更多、更少和/或不同的组件。

在该示例中，装置105包括接口系统110和控制系统115。接口系统110可以包括一个或多个网络接口，控制系统115与存储系统之间的一个或多个接口，和/或一个或多个外部设备接口(诸如一个或多个通用串行总线(USB)接口)。在一些实现中，接口系统110可以包括用户界面系统。用户界面系统可以被配置为从用户接收输入。在一些实现中，用户界面系统可以被配置为向用户提供反馈。例如，用户界面系统可以包括具有相应的触摸和/或手势检测系统的一个或多个显示器。在一些示例中，用户界面系统可以包括一个或多个麦克风和/或扬声器。根据一些示例，用户界面系统可以包括用于提供触觉反馈的装置，诸如马达，振动器等。控制系统115可以例如包括通用单芯片或多芯片处理器，数字信号处理器(DSP)，专用集成电路 (ASIC)，现场可编程门阵列(FPGA)或其他可编程逻辑器件，离散门或晶体管逻辑器件，和/或离散硬件组件。

在一些示例中，装置105可以在单个设备中实现。然而，在一些实现中，装置105可以在一个以上的设备中实现。在一些这样的实现中，控制系统115的功能可以被包括在一个以上的设备中。在一些示例中，装置105可以是另一设备的组件。

图2示出了根据一个示例的用于根据基于感知的损失函数来实现机器学习的过程的框图。在该示例中，输入音频信号205被提供给机器学习模块210。在一些示例中，输入音频信号205可以对应于人类语音。然而，在其他示例中，输入音频信号205可以对应于其他声音，例如音乐等。

根据一些示例，可以经由诸如控制系统115之类的一个或多个控制系统来实现系统200的元件，包括但不限于机器学习模块210。机器学习模块210可以例如经由诸如接口系统110之类的接口系统接收输入音频信号205。在一些情况下，机器学习模块210可以被配置为实现一个或多个神经网络，例如文中公开的神经网络。但是，在其他实现中，机器学习模块210可以配置为实现一种或多种其他类型的机器学习，例如非负矩阵分解，鲁棒主成分分析，稀疏编码，概率潜在成分分析等。

在图2所示的示例中，机器学习模块210将输出音频信号215 提供给损失函数生成模块220。损失函数生成模块225和可选的真值模块220可以例如经由诸如控制系统115的控制系统来实现。在一些示例中，损失函数生成模块225、机器学习模块210和可选的真值模块220可以经由同一设备实现，而在其他示例中，损失函数生成模块 225、可选的真值模块220和机器学习模块210可以经由不同的设备来实现。

根据该示例，损失函数生成模块225接收输入音频信号205，并且将输入音频信号205用作“真值”以用于误差确定。然而，在一些替代实现中，损失函数生成模块225可以接收来自可选的真值模块220 的真值数据。这样的实现可以例如涉及诸如语音增强或语音去噪之类的任务，其中真值不是原始输入音频信号。不管真值数据是输入音频信号205还是从可选的真值模块接收的数据，损失函数生成模块225 都根据损失函数算法和真值数据来评估输出音频信号，并提供损失函数值230到机器学习模块210。在一些这样的实现中，机器学习模块 210包括优化器模块315的实现，其在下文参考图3被描述。在其他示例中，系统200包括与机器学习模块210和损失函数生成模块225 分开但与之通信的优化器模块315的实现。损失函数的各种示例在文中被公开。在此示例中，损失函数生成模块225应用基于感知的损失函数，其可以基于心理声学模型。根据该示例，经由机器学习模块210 实现的机器学习过程(例如，训练神经网络的过程)部分地基于损失函数值230。

与使用基于均方误差(MSE)、L1-范数等的传统损失函数的机器学习过程产生的输出音频信号的感知质量相比，采用基于感知的损失函数(诸如基于心理声学模型的损失函数)用于机器学习(例如，用于训练神经网络)可以提高输出音频信号215的感知质量。例如，与由通过基于MSE的损失函数针对相同时间长度训练的具有相同架构的神经网络产生的输出音频信号的感知质量相比，通过基于心理声学模型的损失函数针对给定时间长度训练的神经网络可以提高输出音频信号215的感知质量。而且，经由基于心理声学模型的损失函数被训练收敛的神经网络通常将产生与经由基于MSE的损失函数被训练收敛的具有相同架构的神经网络的输出音频信号相比感知质量更高的输出音频信号。

一些公开的损失函数利用心理声学原理来确定输出音频信号 215中的哪些差异对于普通人而言是可听见的，而哪些差异对于普通人而言是不可听见的。在一些示例中，基于心理声学模型的损失函数可以采用心理声学现象，例如时间掩蔽、频率掩蔽、等响度曲线、水平相关掩蔽、和/或人类听力阈值。在一些实现中，感知损失函数可以在时域中操作，而在其他实现中，感知损失函数可以在频域中操作。在替代实现中，感知损失函数可以涉及时域操作和频域操作两者。在一些示例中，损失函数可以使用一帧输入来计算损失函数，而在其他示例中，损失函数可以使用多个输入帧来计算损失函数。

图3示出了根据文中公开的一些实现的神经网络训练过程的示例。与文中提供的其他附图一样，元件的数量和类型仅作为示例。根据一些示例，系统301的元件可以经由诸如控制系统115的一个或多个控制系统来实现。在图3所示的示例中，神经网络300是自编码器 (autoencoder)。设计自编码器的技术在Goodfellow，Ian，Yoshua Bengio和AaronCourville的《深度学习(Deep Learning)》(麻省理工学院出版社，2016年)的第14章中进行了介绍，该文献通过引用并入本文。

神经网络300包括节点层，节点在文中也称为“神经元”。每个神经元都有一个实值激活函数(activation function)，其输出通常称为 “激活”，它定义了被给定一个输入或一组输入的神经元的输出。根据一些示例，神经网络300的神经元可以采用S型激活函数，ELU激活函数和/或双曲正切激活函数。替代地或附加地，语音神经网络300 的神经元可以采用修正线性单元(ReLU)激活函数。

神经元之间的每个连接(也称为“突触(synapse)”)具有可修改的实值权重。神经元可以是输入神经元(从网络外部接收数据)，输出神经元，或对从输入神经元到输出神经元的路径中数据进行修改的隐藏神经元。在图3所示的示例中，神经元层1中的神经元是输入神经元，神经元层7中的神经元是输出神经元，神经元层2-6中的神经元是隐藏神经元。尽管图3中显示了五个隐藏层，但某些实现可能包含更多或更少的隐藏层。神经网络300的某些实现可以包括更多或更少的隐藏层，例如10个或更多个隐藏层。例如，一些实现可以包括10、20、30、40、50、60、70、80、90个或更多个隐藏层。

在此，神经网络300的第一部分(编码部分305)被配置为生成编码音频信号，而神经网络300的第二部分(解码部分310)被配置为对编码音频信号进行解码。在该示例中，编码音频信号是压缩音频信号，而解码音频信号是解压缩音频信号。因此，输入音频信号205被编码部分305压缩，如由用于示出神经元层1-4的块的减小的尺寸所暗示的。在一些示例中，输入神经元层可以包括比编码部分305的隐藏神经元层中的至少一个更多的神经元。然而，在替代实施方案中，神经元层1-4全部可具有相同数目的神经元，或基本相似数目的神经元。

因此，由编码部分305提供的压缩音频信号然后经由解码部分 310的神经元层被解码以构建输出信号215，该输出信号215是输入音频信号205的估计。然后，可以使用诸如基于心理声学的损失函数的感知损失函数在训练阶段期间确定神经网络300的参数的更新。这些参数随后可被用于解码(例如，解压缩)已经使用由从训练算法接收的参数确定的权重被编码(例如，压缩)的任何音频信号。换句话说，在对于神经网络300确定了令人满意的权重之后，可以与训练过程分开地进行编码和解码。

根据该示例，损失函数生成模块225接收音频输入信号205的至少一部分，并将其用作真值数据。此处，损失函数生成模块225根据损失函数算法和真值数据评估输出音频信号，并将损失函数值230提供给优化器模块315。在该示例中，利用损失函数生成模块225所使用的损失函数以及神经网络有关的信息来初始化优化器模块315。根据该示例，优化器模块315使用该信息以及优化器模块315从损失函数生成模块225接收的损失值一起来计算损失函数相对于神经网络权重的梯度。一旦知道了该梯度，优化器模块315就使用优化算法来生成神经网络权重的更新320。根据一些实现，优化器模块315可以采用优化算法，诸如随机梯度下降或亚当(Adam)优化算法。亚当优化算法在DP Kingma和JL Ba，“Adam:a Method for Stochastic Optimization”，国际学习表示法会议(ICLR)，2015年，第1-15页中公开，其通过引用而并入这里。在图3所示的示例中，优化器模块 315被配置为向神经网络300提供更新320。在该示例中，损失函数生成模块225应用基于感知的损失函数，其可以基于心理声学模型。根据该示例，训练神经网络300的过程至少部分地基于反向传播。这种反向传播在图3中由神经元层之间的点划线箭头表示。反向传播(也称为“后向传播”)是在神经网络中用以在处理一批数据之后计算每个神经元的误差贡献的一种方法。后向传播技术有时称为误差的反向传播，因为误差可以在输出处被计算并通过神经网络层被分配回去。

神经网络300可以由诸如上文参考图1描述的控制系统115之类的控制系统来实现。因此，训练神经网络300可以包含改变与神经网络300中的权重相对应的非暂时性存储介质位置的物理状态。存储介质位置可以是控制系统或控制系统的一部分可访问的一个或多个存储介质的部分。如上所述，权重对应于神经元之间的连接。训练神经网络300还可包括改变与神经元的激活函数的值相对应的非暂时性存储介质位置的物理状态。

图4A-4C示出了适合于实现文中公开的方法中的一些方法的神经网络的替代示例。根据这些示例，输入神经元和隐藏神经元采用修正线性单位(ReLU)激活函数，而输出神经元采用S型激活函数。然而，神经网络300的替代实现可以包括其他激活函数和/或激活函数的其他组合，包括但不限于指数线性单元(ELU)和/或双曲正切激活函数。

根据这些示例，输入音频数据是256维音频数据。在图4A所示的示例中，编码部分305将输入音频数据压缩为32维音频数据，提供多达8倍的缩减。根据图4B中所示的示例，编码部分305将输入音频数据压缩为16维音频数据，提供多达16倍的缩减。在图4C 中示出的神经网络300包括编码部分305，该编码部分305将输入音频数据压缩为8维音频数据，提供多达32倍的缩减。发明人基于图 4B所示类型的神经网络进行了听力测试，下文描述其的一些结果。

图4D示出了根据替代示例的自编码器的编码部分的块的示例。编码部分305可以例如由诸如上文参考图1描述的控制系统115的控制系统来实现。编码部分305可以例如由控制系统的一个或多个处理器根据存储在一个或多个非暂时性存储介质中的软件来实现。图4D 所示的元件的数量和类型仅仅是示例。编码部分305的其他实现可以包括更多、更少或不同的元件。

在该示例中，编码部分305包括三层神经元。根据一些示例，编码部分305的神经元可以采用ReLU激活函数。然而，根据一些替代示例，编码部分305的神经元可以采用S型激活函数和/或双曲正切激活函数。神经元层1-3中的神经元在维持N维输入数据的N维状态的同时处理N维输入数据。层450被配置为接收神经元层3的输出并应用池化(pooling)算法。池化是非线性下采样的一种形式。根据该示例，层450被配置为应用最大池化函数，该最大池化函数将神经元层 3的输出划分成M个非重叠分区或“子区域”的集合，并且对于每个这样的子区域，输出最大值。

图5A是概述根据一个示例的训练用于音频编码和解码的神经网络的方法的块的流程图。在某些情况下，方法500可以由图1的装置或其它类型的装置执行。在一些示例中，方法500的块可以经由存储在一个或多个非暂时性介质上的软件来实现。像文中描述的其他方法一样，方法500的块不一定按所指示的顺序执行。而且，这样的方法可以包括比所示出和/或所描述的块更多或更少的块。

在此，块505涉及通过经由控制系统实现的神经网络接收输入音频信号，该控制系统包括一个或多个处理器以及一个或多个非暂时性存储介质。在一些示例中，神经网络可以是或可以包括自编码器。根据一些示例，块505可以涉及图1的控制系统115经由接口系统110 接收输入音频信号。在一些示例中，块505可以涉及神经网络300接收输入音频信号205，如上文参考图2到4C所描述的。在一些实现中，输入音频信号205可以包括语音数据集的至少一部分，诸如已知为TIMIT的可公开的语音数据集。TIMIT是由不同性别和方言的美国英语说话者的音位和词汇转录语音的数据集。TIMIT受美国国防高级研究计划局(DARPA)委托。TIMIT的语料库设计是德州仪器 (TI)，麻省理工学院(MIT)和SRIInternational之间的共同努力。根据一些示例，方法500可以包括例如经由快速傅立叶变换(FFT)，离散余弦变换(DCT)或短时傅立叶变换(STFT)将输入音频信号 205从时域变换到频域。在一些实现中，可以在块510之前将最小/最大缩放应用于输入音频信号205。

根据该示例，块510涉及通过神经网络并基于输入音频信号生成编码音频信号。编码音频信号可以是或可以包括压缩音频信号。块 510可以例如由神经网络的编码部分(诸如文中描述的神经网络300 的编码部分305)执行。然而，在其他示例中，块510可以涉及经由不是神经网络的一部分的编码器生成编码音频信号。在一些这样的示例中，实现神经网络的控制系统还可以包括不是神经网络的一部分的编码器。例如，神经网络可以包括解码部分但不包括编码部分。

在该示例中，块515涉及经由控制系统对编码音频信号进行解码以产生解码音频信号。解码音频信号可以是或可以包括解压缩音频信号。在一些实现中，块515可以涉及产生解码的变换系数。块515可以例如由神经网络的解码部分(诸如文中描述的神经网络300的解码部分310)执行。然而，在其他示例中，块510可以涉及经由不是神经网络的一部分的解码器来生成解码音频信号和/或解码的变换系数。在一些这样的示例中，实现神经网络的控制系统还可以包括不是神经网络的一部分的解码器。例如，神经网络可以包括编码部分但不包括解码部分。

因此，在一些实现中，神经网络的第一部分可以被配置为生成编码音频信号，并且神经网络的第二部分可以被配置为对编码音频信号进行解码。在一些这样的实现中，神经网络的第一部分可以包括输入神经元层和多个隐藏神经元层。在一些示例中，输入神经元层可以包括比第一部分的隐藏神经元层中的至少一个隐藏神经元层更多的神经元。然而，在替代实现中，输入神经元层可具有与第一部分的隐藏神经元层相同数目的神经元，或基本相似数目的神经元。

根据一些示例，神经网络的第一部分的至少一些神经元可以被配置有修正线性单元(ReLU)激活函数。在一些实现中，神经网络的第二部分的隐藏层中的至少一些神经元可以配置有修正线性单元 (ReLU)激活函数。根据一些这样的实现，第二部分的输出层中的至少一些神经元可以被配置成具有S型激活函数。

在一些实现中，块520可以包括通过经由控制系统实现的损失函数生成模块接收解码音频信号和/或解码的变换系数、以及真值信号。真值信号可以例如包括真值音频信号和/或真值变换系数。在一些这样的示例中，可以从诸如图2中示出并在上文描述的真值模块220的真值模块接收真值信号。然而，在一些实现中，真值信号可以是(或可以包括)输入音频信号或输入音频信号的一部分。损失函数生成模块可以例如是文中公开的损失函数生成模块225的实例。

根据一些实现，块525可以包括由损失函数生成模块生成与解码音频信号和/或解码的变换系数相对应的损失函数值。在一些这样的实现中，生成损失函数值可以涉及应用心理声学模型。在图5A所示的示例中，块530涉及基于损失函数值训练神经网络。训练可以涉及更新神经网络中的至少一个权重。在一些这样的示例中，诸如上文已经参考图3描述的优化器模块315之类的优化器可能已经通过损失函数生成模块225所使用的(一个或多个)损失函数和神经网络有关的信息被初始化。优化器模块315可以被配置为使用该信息以及优化器模块315从损失函数生成模块225接收的损失函数值，来计算损失函数相对于神经网络权重的梯度。在计算梯度之后，优化器模块315可以使用优化算法来生成神经网络的权重的更新并将这些更新提供给神经网络。训练神经网络可能涉及基于由优化器模块315提供的更新的反向传播。Goodpellow，Ian，Yoshua Bengio和Aaron Courville，Deep Learning，(MIT press，2016)的第五章和第七章中描述了在神经网络训练期间检测并解决过拟合的技术，其通过引用并入这里。训练神经网络可涉及改变与神经网络的至少一个权重或至少一个激活函数值相对应的至少一个非暂时性存储介质位置的物理状态。

心理声学模型可能会根据特定实现而改变。根据一些示例，心理声学模型可以至少部分地基于一个或多个心理声学掩蔽阈值。在一些实现中，应用心理声学模型可以包括对外耳传递函数进行建模，分组为临界频带，频域掩蔽(包括但不限于水平相关的扩展)，对频率相关的听力阈值进行建模，和/或计算噪声掩蔽比。下面参考图6-10描述一些示例。

在某些实现中，损失函数生成模块的损失函数的确定可能涉及计算噪声掩蔽比(NMR)，例如平均NMR。训练过程可能涉及最小化平均NMR。一些示例在下文被描述。

根据一些示例，训练神经网络可以继续进行，直到损失函数相对 “平坦”，使得当前损失函数值与先前损失函数值(例如前一损失函数值)之间的差等于或小于阈值。在图5所示的示例中，训练神经网络可以包括重复块505至535中的至少一些，直到当前损失函数值与先前损失函数值之间的差小于或等于预定值。

在已经训练了神经网络之后，神经网络(或其一部分)可被用于处理音频数据，例如，用于编码或解码音频数据。图5B是概述根据一个示例的使用经训练的神经网络进行音频编码的方法的块的流程图。在某些情况下，方法540可以由图1的装置或其它类型的装置执行。在一些示例中，方法540的块可以经由存储在一个或多个非暂时性介质上的软件来实现。像文中描述的其他方法一样，方法540的块不一定按所指示的顺序执行。而且，这样的方法可以包括比所示出和 /或所描述的更多或更少的块。

在该示例中，块545涉及接收当前输入的音频信号。在该示例中，块545涉及通过控制系统接收当前输入的音频信号，该控制系统包括一个或多个处理器以及可操作地耦合至一个或多个处理器的一个或多个非暂时性存储介质。在此，控制系统被配置为实现包括已经根据文中公开的方法中的一种或多种被训练的神经网络的音频编码器。

在一些示例中，训练过程可以包括：通过神经网络并经由接口系统接收输入的训练音频信号；通过神经网络且基于输入的训练音频信号生成编码的训练音频信号；经由控制系统对编码的训练音频信号进行解码以产生解码的训练音频信号；通过经由控制系统实现的损失函数生成模块来接收解码的训练音频信号和真值音频信号；通过损失函数生成模块生成与解码的训练音频信号相对应的损失函数值，其中生成损失函数值包括应用心理声学模型；以及基于损失函数值训练神经网络。

根据此实现，块550涉及经由音频编码器以压缩音频格式对当前输入的音频信号进行编码。这里，块555涉及输出压缩音频格式的编码音频信号。

图5C是概述根据一个示例的使用经训练的神经网络进行音频解码的方法的块的流程图。在某些情况下，方法560可以由图1的装置或其它类型的装置执行。在一些示例中，方法560的块可以经由存储在一个或多个非暂时性介质上的软件来实现。像文中描述的其他方法一样，方法560的块不一定按所指示的顺序执行。而且，这样的方法可以包括比所示出和/或所描述的更多或更少的块。

在该示例中，块565涉及接收当前输入的压缩音频信号。在一些这样的示例中，当前输入的压缩音频信号可能已经根据方法540或通过类似方法产生。在该示例中，块565涉及通过控制系统接收当前输入的压缩音频信号，该控制系统包括一个或多个处理器以及可操作地耦合至一个或多个处理器的一个或多个非暂时性存储介质。在此，控制系统被配置为实现包括已经根据文中公开的方法中的一种或多种被训练的神经网络的音频解码器。

根据该实现，块570涉及经由音频解码器对当前输入的压缩音频信号进行解码。例如，块570可以包括解压缩当前输入的压缩音频信号。在此，块575涉及输出解码音频信号。根据一些示例，方法 540可以包括经由一个或多个换能器来再现解码音频信号。

如上所述，发明人已经研究了使用与人类感知声音的方式有关的损失函数来训练不同类型的神经网络的各种方法。根据通过神经网络编码产生的音频数据来评估每个损失函数的有效性。在一些示例中，由已经通过使用基于均方误差(MSE)的损失函数被训练的神经网络处理的音频数据被用作用于评估根据文中公开的方法产生的音频数据的基础。

图6是示出损失函数生成模块的块图，该损失函数生成模块被配置为基于均方误差生成损失函数。在此，将由神经网络产生的音频信号的估计幅值和真值/真实音频信号的幅值两者都提供给损失函数生成模块225。损失函数生成模块225基于MSE值生成损失函数值230。损失函数值230可以被提供给优化器模块，该优化器模块被配置为生成对神经网络的权重的更新以用于训练。

发明人已经评估了至少部分地基于人耳的一个或多个部分的声学响应的模型(也可以称为“耳模型”)的损耗函数的一些实现。图7A 是近似人耳道的典型声学响应的函数的曲线图。

图7B示出了损失函数生成模块，其被配置为基于人耳道的典型声学响应来生成损失函数。在该示例中，将函数W应用于通过神经网络产生的音频信号和真值/真实音频信号。

在某些示例中，函数W可以如下：

式1已用于出于对人耳道的声学响应进行建模的目的的音频质量感知评估(PEAQ)算法的实现。在式1中，f表示音频信号的频率。在该示例中，损失函数生成模块225基于两个结果值之间的差来生成损失函数值230。损失函数值230可以被提供给优化器模块，该优化器模块被配置为生成对神经网络的权重的更新以用于训练。

当与由根据基于MSE的损失函数训练的神经网络产生的音频信号进行比较时，通过使用诸如图7B中所示的损失函数训练神经网络而产生的音频信号仅提供了轻微的改进。例如，使用基于感知客观听力质量分析(POLQA)的客观标准，基于MSE的音频数据的得分为 3.41，而通过使用如图7B所示的损失函数训练神经网络而产生的音频数据得分为3.48。

在一些实验中，发明人测试了由根据基于分带操作的损失函数训练的神经网络产生的音频信号。图8示出了损失函数生成模块，其被配置为基于分带操作来生成损失函数。在该示例中，损失函数生成模块225被配置为对由神经网络产生的音频信号和真值/真实音频信号执行分带操作，并计算结果之间的差。

在一些实施方式中，分带操作基于“Zwicker”带，其是根据Fastl， H.&Zwicker，E.(2007)，《心理声学：事实和模型》(第3版， Springer)的第6章(临界带和激发)定义的临界带，其通过引用并入这里。在替代实现中，分带操作基于“Moore”带，其是根据Moore，B.C.J.(2012)，《听力心理学概论》(Emerald Group Publishing) 的第三章(频率选择性，掩蔽和临界带)定义的临界带，其通过引用并入这里。但是，其他示例可能涉及本领域技术人员已知的其他类型的分带操作。

根据他们的实验，发明人得出的结论是，单独的分带操作不可能提供令人满意的结果。例如，使用基于POLQA的客观标准，基于 MSE的音频数据获得3.41分，而在一个示例中，通过使用分带操作对神经网络进行训练而产生的音频数据仅获得1.62分。

在一些实验中，发明人测试了由根据至少部分地基于频率掩蔽的损失函数训练的神经网络产生的音频信号。图9A示出了根据一些示例的频率掩蔽所涉及的过程。在该示例中，在频域中计算扩展函数。该扩展函数可以例如是依赖于电平和频率的函数，其可以根据输入音频数据(例如根据每个输入音频帧)被估计。然后可以执行与输入音频的频谱的卷积，这产生激励图案。输入音频数据和扩展函数之间的卷积结果是人类听觉滤波器如何对传入声音的激励做出反应的近似值。因此，该过程是人类听力机制的模拟。在一些实现中，音频数据被分组到频率区段中，并且卷积过程包括将每个频率区段的扩展函数与该频率区段的相应音频数据进行卷积。

可以调整激励图案以产生掩模图案。在一些示例中，可以将激励图案向下调整例如20dB，以产生掩模图案。

图9B示出了扩展函数的示例。根据该示例，扩展函数是简化的不对称三角函数，其可被预先计算以进行高效实现。在此简化示例中，垂直轴表示分贝，水平轴表示Bark子带。根据一个这样的示例，扩展函数被如下地计算：

S_l＝27 (式2)

在式2和3中，S_l表示图9B的扩展函数的在峰值频率左侧的部分的斜率，而S_u表示扩频函数的在峰值频率右侧的部分的斜率。斜率单位是dB/Bark。在式3中，f代表扩展函数的中心频率或峰值频率，L代表音频数据的电平或幅度。在一些示例中，为了简化扩展函数的计算，可以假设L为常数。根据一些这样的示例，L可以是70dB。

在一些这样的实现中，可以如下地计算激励图案：

在式4中，E表示激励函数(在文中也称为激励图案)，SF表示扩频函数，并且BP表示分频率区段的音频数据的带状模式。在一些实现中，可调整激励图案以产生掩蔽图案。在一些示例中，可以将激励图案向下调整，例如向下调整20dB，24dB，27dB等，以产生掩蔽图案。

图10示出了损失函数生成模块的替代实现的示例。损失函数生成模块225的元件可以例如由诸如参考图1在上文描述的控制系统 115之类的控制系统来实现。

在该示例中，将参考音频信号x_ref提供给损失函数生成模块225 的快速傅立叶变换(FFT)块1005a，该参考音频信号x_ref是文中其他各处所引用的真值信号的实例。由诸如文中公开的那些神经网络之一的神经网络产生的测试音频信号x被提供给损失函数生成模块225的 FFT块1005b。

根据该示例，FFT块1005a的输出被提供给耳模型块1010a，并且FFT块1005b的输出被提供给耳模型块101b。耳模型块1010a和 1010b可以例如被配置为应用基于人耳的一个或多个部分的典型声学响应的函数。在一个这样的示例中，耳模型块1010a和1010b可以被配置为应用上文式1中所示的函数。

根据该实现，将耳模型块1010a和1010b的输出提供给差值计算块1015，其被配置为计算耳模型块1010a的输出与耳模型块1010b的输出之间的差值。差值计算块1015的输出可以被认为是测试信号x 中的噪声的近似值。

在该示例中，将耳模型块1010a的输出提供给分带块1020a，并且将差值计算块1015的输出提供给分带块1020b。分带块1020a和 1020b被配置为应用相同类型的分带过程，其可以是以上公开的分带过程(例如，Zwicker或Moore分带过程)之一。然而，在替代实施方式中，分带块1020a和1020b可以被配置为应用本领域技术人员已知的任何合适的分带过程。

分带块1020a的输出被提供给频率掩蔽块1025，其被配置为施加频率掩蔽操作。掩蔽块1025可以例如被配置为应用文中公开的频率掩蔽操作中的一个或多个。如以上参考图9B所述，使用简化的频率掩蔽过程可以提供潜在的优点。然而，在替代实现中，掩蔽块1025 可被配置为应用本领域技术人员已知的一个或多个其他频率掩蔽操作。

根据该示例，掩蔽块1025的输出和分带块1020b的输出都被提供给噪声掩蔽比(NMR)计算块1030。如上所述，差计算块1015 的输出可以被认为是测试信号x中的噪声的近似值。因此，分带块 1020b的输出可以被认为是测试信号x中的噪声的频带形式。根据一个示例，NMR计算块1030可以如下计算NMR：

在式5中，BP_noise代表分带块1020b的输出，MP代表掩蔽块1025 的输出。根据一些示例，由NMR计算块1030计算出的NMR可以是在由分带块1020a和1020b输出的所有频带上的平均NMR。由NMR 计算块1030计算出的NMR可以用作损失函数值230，用于训练神经网络，例如上文所述的神经网络。例如，损失函数值230可以被提供给优化器模块，该优化器模块被配置为生成神经网络的更新的权重。

图11示出了一些公开的实现的客观测试结果的示例。图11示出了由如下神经网络产生的音频数据的PESQ得分之间的比较，该神经网络使用基于MSE、幂定律、NMR-Zwicker(基于像Zwicker分带过程那样的分带过程的NMR，但是具有比Zwicker所定义的那些频带略窄的)、以及NMR-Moore(基于Moore分带过程的NMR)。基于上面参考图4B所述的神经网络的输出的这些结果示出 NMR-Zwicker和NMR-Moore结果均比MSE和幂定律结果好一些。

图12示出了由使用各种损失函数训练的神经网络产生的、对应于男性讲话者的音频数据的主观测试结果的示例。在此示例中，主观测试结果是具有隐藏参考和锚点的多重刺激测试(MUSHRA)的等级。在ITU-R BS.1534中被描述的MUSHRA是一种公知的方法，用于进行编解码器收听测试，以评估有损音频压缩算法的输出的感知质量。MUSHRA方法的优点是可以同时显示许多刺激，因此受试者可以直接在它们之间进行任何比较。与其他方法相比，使用MUSHRA 方法执行测试所需的时间可以大大减少。之所以如此，部分原因在于所有编解码器的结果都在相同样本上同时呈现，因此可以将配对t 测试或分析用于统计分析。图12中沿x轴的数字是不同音频文件的标识号。

更具体地说，图12示出了由使用基于MSE的损失函数、基于幂定律的损失函数、基于NMR-Zwicker的损失函数和使用基于 NMR-Moore的损失函数训练的同一神经网络生成的音频数据，通过应用3.5kHz低通滤波器(MUSHRA技术的标准“锚”之一)产生的音频数据以及参考音频数据的MUSHRA评分之间的比较。在此示例中，MUSHRA评分是从11个不同的收听者那里获得的。如图12所示，由使用基于NMR-Moore的损失函数训练的神经网络产生的音频数据的平均MUSHRA评分显著高于任何其他评分。两者之间的差约为30MUSHRA点，是一个罕见的大效果。第二高的平均MUSHRA 评分是对于由使用基于NMR-Zwicker的损失函数训练的神经网络生成的音频数据的。

图13示出了由与图12所示相同类型的损失函数训练的神经网络生成的、对应于女性讲话者的音频数据的主观测试结果的示例。如图 12中那样，沿图13中x轴的数字是不同音频文件的标识号。在此示例中，最高平均MUSHRA评分再次分配给了由使用基于NMR的损失函数训练的神经网络生成的音频数据。尽管在该示例中， NMR-Moore和NMR-Zwicker音频数据与其他音频数据之间的感知差异没有图12中所示的感知差异明显，但图13中所示的结果仍然表明存在显着改善。

在不脱离本公开的范围的情况下，文中定义的一般原理可以应用于其他实现。因此，权利要求书无意限于文中所展示的实施方案，而是应被赋予与本公开、原理及新颖特征一致的最广范围。

从以下列举的示例实施例(EEE)中可以理解本发明的各个方面：

1.一种计算机实现的音频处理方法，包括：

通过经由包括一个或多个处理器和一个或多个非暂时性存储介质的控制系统实现的神经网络，接收输入音频信号；

通过神经网络并基于输入音频信号生成编码音频信号；

经由所述控制系统对编码音频信号进行解码以产生解码音频信号；

通过经由所述控制系统实现的损失函数生成模块，接收解码音频信号和真值音频信号；

通过损失函数生成模块生成与解码音频信号相对应的损失函数值，其中生成损失函数值包括应用心理声学模型；以及

基于所述损失函数值来训练神经网络，其中训练包括更新神经网络的至少一个权重。

2.EEE 1的方法，其中训练神经网络包括基于损失函数值的反向传播。

3.EEE 1或EEE 2的方法，其中神经网络包括自编码器。

4.EEE 1-3中任一项的方法，其中训练神经网络包括改变对应于神经网络的至少一个权重的至少一个非暂时性存储介质位置的物理状态。

5.EEE 1-4中任一项的方法，其中神经网络的第一部分生成编码音频信号，并且神经网络的第二部分对编码音频信号进行解码。

6.EEE 5的方法，其中神经网络的第一部分包括输入神经元层和多个隐藏神经元层，其中输入神经元层比最终隐藏神经元层包含更多的神经元。

7.EEE 5的方法，其中神经网络的第一部分的至少一些神经元被配置有修正线性单元(ReLU)激活函数。

8.EEE 5的方法，其中在神经网络第二部分的隐藏层中的至少一些神经元被配置有修正线性单元(ReLU)激活函数，并且在第二部分的输出层中的至少一些神经元被配置有S型激活函数。

9.EEE 1至8中任一项的方法，其中，所述心理声学模型至少部分地基于一个或多个心理声学掩蔽阈值。

10.EEE 1-9中任一项的方法，其中所述心理声学模型涉及以下中的一项或多项：对外耳传递函数建模；分组为临界频段；频域掩蔽，包括但不限于水平相关扩展；频率相关的听力阈值的建模；或计算噪声掩蔽比。

11.EEE 1-10中任一项的方法，其中，所述损失函数包括计算平均噪声掩蔽比，并且其中，所述训练包括最小化所述平均噪声掩蔽比。

12.一种音频编码方法，包括：

通过控制系统接收当前输入的音频信号，该控制系统包括一个或多个处理器和可操作地耦合到一个或多个处理器的一个或多个非暂时性存储介质，该控制系统被配置为实现包括已根据EEE 1-11中的方法中的任一种训练的神经网络的音频编码器；

通过音频编码器，以压缩音频格式对当前输入的音频信号进行编码；和

输出压缩音频格式的编码音频信号。

13.一种音频解码方法，包括：

通过控制系统接收当前输入的压缩音频信号，该控制系统包括一个或多个处理器和可操作地耦合到一个或多个处理器的一个或多个非暂时性存储介质，该控制系统被配置为：实现包括已根据EEE 1-11 中的方法的任何一种进行了训练的神经网络的音频解码器；

通过音频解码器对当前输入的压缩音频信号进行解码；以及

输出解码音频信号。

14.EEE 13的方法，还包括经由一个或多个换能器再现解码音频信号。

15.一种装置，包括：

接口系统；和

控制系统，包括一个或多个处理器以及可操作地耦合到一个或多个处理器的一个或多个非暂时性存储介质，该控制系统配置为实现 EEE 1-14中任一项的方法。

16.一个或多个非暂时性介质，其上存储有软件，该软件包括用于控制一个或多个设备以执行EEE 1-14中任一项的方法的指令。

17.一种音频编码装置，包括：

接口系统；和

控制系统，包括一个或多个处理器以及可操作地耦合到一个或多个处理器的一个或多个非暂时性存储介质，该控制系统配置为实现音频编码器，该音频编码器包括已根据EEE 1-11所述的方法中的任一个被训练的神经网络，其中，所述控制系统配置为：

接收当前输入的音频信号；

以压缩音频格式编码当前输入的音频信号；

输出压缩音频格式的编码音频信号。

18.一种音频编码装置，包括：

接口系统；和

控制系统，包括一个或多个处理器和可操作地耦合到一个或多个处理器的一个或多个非暂时性存储介质，该控制系统配置为实现包括已根据以下操作被训练的神经网络的音频编码器，该操作包括：

通过神经网络并通过接口系统接收输入的训练音频信号；

通过神经网络并基于输入的训练音频信号生成编码的训练音频信号；

经由控制系统对编码的训练音频信号进行解码以产生解码的训练音频信号；

通过经由所述控制系统实现的损失函数生成模块，接收解码的训练音频信号和真值音频信号；

通过所述损失函数生成模块生成与所述解码后的训练音频信号对应的损失函数值，其中，产生损失函数值包括：应用心理声学模型；和

根据损失函数值训练神经网络；

其中，音频编码器进一步被配置为：

接收当前输入的音频信号；

以压缩音频格式编码当前输入的音频信号；

输出压缩音频格式的编码音频信号。

19.一种包括音频解码装置的系统，包括：

接口系统；

控制系统，该控制系统包括一个或多个处理器以及可操作地耦合到一个或多个处理器的一个或多个非暂时性存储介质，该控制系统配置为实现音频解码器，该音频解码器包括已根据以下操作被训练的神经网络，该操作包括：

通过神经网络并通过接口系统接收输入的训练音频信号；

经由控制系统对编码的训练音频信号进行解码以生成解码的训练音频信号；

通过经由控制系统实现的损失函数生成模块，接收解码的训练音频信号和真值音频信号；

通过损失函数生成模块生成与所述解码后的训练音频信号对应的损失函数值，其中，产生所述损失函数值包括应用心理声学模型；和

基于损失函数值训练神经网络；

其中，音频解码器进一步配置为：

接收压缩音频格式的当前输入的编码音频信号；

以解压缩的音频格式对当前输入的编码音频信号进行解码；和

输出解压缩音频格式的解码音频信号。

20.EEE 19的系统，其中该系统进一步包括一个或多个换能器，其被配置用于再现解码的音频信号。

Claims

1.一种用于训练经由控制系统实现的神经网络的编码部分的计算机实现的方法，该控制系统包括一个或多个处理器以及一个或多个非暂时性存储介质，该方法包括：

接收包括音频数据的输入音频信号；

通过神经网络的编码部分并基于输入的音频信号生成编码音频信号；

基于损失函数值训练所述编码部分，其中训练涉及更新所述编码部分的至少一个权重，

其中生成损失函数值包括应用心理声学模型。

2.如权利要求1所述的方法，其中通过应用心理声学模型生成损失函数值还包括计算噪声掩蔽比。

3.如权利要求1或2所述的方法，其中训练所述神经网络的所述编码部分包括基于所述损失函数值的反向传播。

4.一种音频编码器，包括根据如权利要求1至3中任一项所述的方法被训练的神经网络的编码部分，其中，所述音频编码器还被配置为：

接收当前输入的音频信号；

以压缩音频格式编码所述当前输入的音频信号；以及

输出压缩音频格式的编码信号。

5.一种音频编码装置，包括：

接口系统；以及

控制系统，其包括一个或多个处理器以及可操作地耦合到所述一个或多个处理器的一个或多个非暂时性存储介质，所述控制系统被配置为实现根据权利要求4所述的音频编码器。

6.一种用于训练经由控制系统实现的神经网络的解码部分的计算机实现的方法，该控制系统包括一个或多个处理器以及一个或多个非暂时性存储介质，该方法包括：

通过神经网络的解码部分对编码音频信号进行解码，以产生解码音频信号和/或解码变换系数中的至少一者；

基于损失函数值训练所述神经网络的所述解码部分，其中训练涉及更新所述神经网络的所述解码部分的至少一个权重，

其中生成损失函数值包括应用心理声学模型。

7.如权利要求6所述的方法，其中通过应用心理声学模型生成损失函数值还包括计算噪声掩蔽比。

8.如权利要求6或7所述的方法，进一步包括：

通过经由控制系统实现的损失函数生成模块，接收解码音频信号和/或所述解码变换系数中的所述至少一者以及真值音频信号；

通过损失函数生成模块生成与解码音频信号和/或所述解码变换系数中的所述至少一者相对应的损失函数值。

9.一种音频解码器，包括根据如权利要求6至8中的任一项所述的方法训练的神经网络的解码部分，其中，所述音频解码器还被配置为：

接收压缩音频格式的当前输入的编码音频信号；

以解压缩音频格式解码当前输入的编码音频信号；以及

输出解压缩音频格式的解码音频信号。

10.一种音频解码装置，包括：

接口系统；

控制系统，包括一个或多个处理器以及可操作地耦合到一个或多个处理器的一个或多个非暂时性存储介质，该控制系统配置为实现音频解码器，所述音频解码器包括根据如权利要求6至8中任一项所述的方法被训练的神经网络的解码部分，

其中所述音频解码器还被配置为：

接收压缩音频格式的当前输入的编码音频信号；

以解压缩音频格式解码当前输入的编码音频信号；以及

输出解压缩音频格式的解码音频信号。

11.一种包括如权利要求10所述的音频解码装置的系统，其中，所述系统还包括被配置为用于再现所述解码音频信号的一个或多个换能器。