CN115410583A - 基于机器学习的用于音频编码和解码的基于感知的损失函数 - Google Patents

基于机器学习的用于音频编码和解码的基于感知的损失函数 Download PDF

Info

Publication number
CN115410583A
CN115410583A CN202210834906.8A CN202210834906A CN115410583A CN 115410583 A CN115410583 A CN 115410583A CN 202210834906 A CN202210834906 A CN 202210834906A CN 115410583 A CN115410583 A CN 115410583A
Authority
CN
China
Prior art keywords
audio signal
neural network
loss function
audio
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210834906.8A
Other languages
English (en)
Inventor
R·M·费杰吉恩
G·A·戴维森
吴致暐
V·库玛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN115410583A publication Critical patent/CN115410583A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Abstract

本公开涉及基于机器学习的用于音频编码和解码的基于感知的损失函数。提供了用于训练神经网络以及用于通过训练的神经网络来实现音频编码器和解码器的计算机实现的方法。神经网络可以接收输入音频信号,生成编码音频信号并且对编码音频信号进行解码。损失函数生成模块可以接收解码音频信号和真值音频信号,并且可以生成与解码音频信号相对应的损失函数值。生成损失函数值可涉及应用心理声学模型。可以基于损失函数值来训练神经网络。训练可涉及更新神经网络的至少一个权重。

Description

基于机器学习的用于音频编码和解码的基于感知的损失函数
本申请是申请号为201980030729.4、申请日为2019年4月10 日、发明名称为“基于机器学习的用于音频编码和解码的基于感知的 损失函数”的发明专利申请的分案申请。
技术领域
本公开涉及音频信号处理。特别地,本公开涉及对音频数据进行 编码和解码。
背景技术
音频编解码器是在给定特定音频文件或流媒体音频格式的情况 下能够编码和/或解码数字音频数据的设备或计算机程序。音频编解码 器的主要目标通常是用最小位数表示音频信号,同时将音频质量保持 在适合于该位数的程度。这种音频数据压缩既可以减小音频数据所需 的存储空间,又可以减小音频数据传输所需的带宽。
发明内容
文中公开了各种音频处理方法。一些这样的方法可以是计算机实 现的音频处理方法,其包括通过经由控制系统实现的神经网络接收输 入音频信号,该控制系统包括一个或多个处理器以及一个或多个非暂 时性存储介质。这样的方法可包括通过神经网络并基于输入音频信号 生成编码音频信号。一些这样的方法可包括通过控制系统对编码音频 信号进行解码,以产生解码音频信号,并且通过经由控制系统实现的 损失函数生成模块接收解码音频信号和真值(ground truth)音频信 号。这样的方法可包括通过损失函数生成模块生成与解码音频信号相 对应的损失函数值。生成损失函数值可包括应用心理声学模型。这样 的方法可包括基于损失函数值训练神经网络。训练可包括更新神经网 络的至少一个权重。
根据一些实现,训练神经网络可以包括基于损失函数值的反向传 播。在一些示例中,神经网络可以包括自编码器。训练神经网络可包 括改变与神经网络的至少一个权重相对应的至少一个非暂时性存储 介质位置的物理状态。
在一些实现中,神经网络的第一部分可以生成编码音频信号,并 且神经网络的第二部分可以解码编码音频信号。在一些这样的实现 中,神经网络的第一部分可以包括输入神经元层和多个隐藏神经元 层。在某些情况下,输入神经元层可包括比最终隐藏神经元层更多的 神经元。神经网络的第一部分的至少一些神经元可以被配置有修正线 性单元(ReLU)激活函数(activation function)。在一些示例中, 神经网络的第二部分的隐藏层中的至少一些神经元可以被配置具有 ReLU激活函数,并且第二部分的输出层中的至少一些神经元可以被 配置具有S型(Sigmoidal)激活函数。
根据一些示例,心理声学模型可以至少部分地基于一个或多个心 理声学掩蔽阈值。在一些实现中,心理声学模型可以包括对外耳传递 函数建模,分组为临界频带,频域掩蔽(包括但不限于水平相关的扩 展),对频率相关的听力阈值进行建模和/或计算噪声掩蔽比。在一些 示例中,损失函数可以涉及计算平均噪声掩蔽比,并且训练可以涉及 使平均噪声掩蔽比最小化。
文中公开了一些音频编码方法和设备。在一些示例中,音频编码 方法可包括通过控制系统接收当前输入的音频信号,该控制系统包括 一个或多个处理器以及可操作地耦合到一个或多个处理器的一个或 多个非暂时性存储介质。该控制系统被配置为实现音频编码器,该音 频编码器包括已经根据文中公开的方法中的任一个被训练的神经网 络。这样的方法可包括经由音频编码器以压缩音频格式编码当前输入 的音频信号,并且输出压缩音频格式的编码音频信号。
文中公开了一些音频解码方法和设备。在一些示例中,音频解码 方法可以包括:通过控制系统接收当前输入的压缩音频信号,该控制 系统包括一个或多个处理器以及可操作地耦合到一个或多个处理器 的一个或多个非暂时性存储介质。控制系统被配置为实现音频解码 器,该音频解码器包括已经根据文中公开的方法中的任一个被训练的 神经网络。这样的方法可包括经由音频解码器解码当前输入的压缩音 频信号,并输出解码音频信号。一些这样的方法可包括经由一个或多 个换能器再现解码音频信号。
可以由一个或多个设备根据存储在一种或多种非暂时性介质上 的指令(例如,软件)来执行文中所述的方法中的一些或全部。这样 的非暂时性介质可以包括诸如文中所述的那些的存储设备,包括但不 限于随机存取存储器(RAM)设备,只读存储器(ROM)设备等。因 此,可以在其上存储有软件的非暂时性介质中实现本公开中描述的主 题的各个创新方面。该软件可以例如包括用于控制至少一个设备以处 理音频数据的指令。该软件可以例如由诸如文中公开的那些的控制系 统的一个或多个组件执行。该软件可以例如包括用于执行文中公开的 方法中的一种或多种的指令。
可以经由装置来实现本公开的至少一些方面。例如,一个或多个 设备可以被配置用于至少部分地执行文中公开的方法。在一些实施方 式中,一种装置可以包括接口系统和控制系统。接口系统可以包括一 个或多个网络接口、控制系统与存储器系统之间的一个或多个接口、 控制系统与另一设备之间的一个或多个接口、和/或一个或多个外部设 备接口。控制系统可包括通用单芯片或多芯片处理器、数字信号处理 器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA) 或其他可编程逻辑设备、离散门或晶体管逻辑器件、或离散硬件组件 中的至少一者。因此,在一些实现中,控制系统可以包括一个或多个 处理器以及可操作地耦合到一个或多个处理器的一个或多个非暂时 性存储介质。
根据一些这样的示例,该装置可以包括接口系统和控制系统。该 控制系统可以例如被配置用于实现文中公开的方法中的一种或多种。 例如,控制系统可以被配置为实现音频编码器。音频编码器可以包括 已经根据文中公开的方法中的一种或多种训练的神经网络。控制系统 可以被配置用于接收当前输入的音频信号,用于以压缩音频格式对当 前输入的音频信号进行编码,以及用于(例如经由接口系统)输出压 缩音频格式的编码音频信号。
替代地或附加地,控制系统可以被配置为实现音频解码器。音频 解码器可以包括已经根据以下过程被训练的神经网络,该过程包括通 过该神经网络并通过接口系统接收输入的训练音频信号,并通过神经 网络且基于输入的训练音频信号生成编码的训练音频信号。该过程可 以包括经由控制系统对编码的训练音频信号进行解码以产生解码的 训练音频信号,并通过经由控制系统实现的损失函数生成模块来接收 解码的训练音频信号和真值音频信号。该过程可以包括通过损失函数 生成模块生成与解码的训练音频信号相对应的损失函数值。生成损失 函数值可能包括应用心理声学模型。该过程可包括基于损失函数值训 练神经网络。
音频编码器可以进一步被配置为接收当前输入的音频信号,以压 缩音频格式对当前输入的音频信号进行编码,以及输出压缩音频格式 的编码音频信号。
在一些实现中,公开的系统可以包括音频解码装置。该音频解码 装置可以包括接口系统和控制系统,该控制系统包括一个或多个处理 器以及可操作地耦合到一个或多个处理器的一个或多个非暂时性存 储介质。该控制系统可以被配置为实现音频解码器。
音频解码器可以包括已经根据以下过程被训练的神经网络,该过 程包括通过神经网络并经由接口系统接收输入的训练音频信号,并且 通过神经网络且基于输入的训练音频信号生成编码的训练音频信号。 该过程可以包括经由控制系统对编码的训练音频信号进行解码以产 生解码的训练音频信号,并通过经由控制系统实现的损失函数生成模 块来接收解码的训练音频信号和真值音频信号。该过程可以包括通过 损失函数生成模块生成与解码的训练音频信号相对应的损失函数值。 生成损失函数值可包括应用心理声学模型。该过程可包括基于损失函 数值训练神经网络。
音频解码器可以进一步被配置为接收压缩音频格式的当前输入 的编码音频信号,用于以解压缩音频格式对当前输入的编码音频信号 进行解码,并且用于输出解压缩音频格式的解码音频信号。根据一些 实现,该系统可以包括被配置用于再现解码音频信号的一个或多个换 能器。
说明书中描述的主题的一种或多种实现的细节在附图和以下描 述中被阐述。其他特征、方面和优点将从说明书、附图和权利要求书 变得显而易见。请注意,以下附图的相对尺寸可能未按比例绘制。各 个附图中相同的附图标记和标志通常指示相同的元件。
附图说明
图1是示出可以被配置为执行文中公开的方法中的至少一些的 装置的组件的示例的框图。
图2示出了根据一个示例的用于根据基于感知的损失函数来实 现机器学习的过程的框图。
图3示出了根据文中公开的一些实现的神经网络训练过程的示 例。
图4A-4D示出了适合于实现文中公开的一些方法的神经网络的 替代示例。
图5A是概述根据一个示例的训练用于音频编码和解码的神经网 络的方法的块的流程图。
图5B是概述根据一个示例的使用经训练的神经网络进行音频编 码的方法的块的流程图。
图5C是概述根据一个示例的使用经训练的神经网络进行音频解 码的方法的块的流程图。
图6是示出损失函数生成模块的框图,该损失函数生成模块被配 置为基于均方误差生成损失函数。
图7A是近似人耳道的典型声学响应的函数的曲线图。
图7B示出了损失函数生成模块,其被配置为基于人耳道的典型 声学响应来生成损失函数。
图8示出了损失函数生成模块,其被配置为基于分带操作来生成 损失函数。
图9A示出了根据一些示例的频率掩蔽中所包含的过程。
图9B示出了扩展函数的示例。
图10示出了损失函数生成模块的替代性实现的一个示例。
图11显示了针对一些公开的实现的客观测试结果的示例。
图12显示了由使用各种损失函数训练的神经网络产生的对应于 男性讲话者的音频数据的主观测试结果的示例。
图13显示了由使用与图12中所示相同类型的损失函数训练的神 经网络产生的对应于女性讲话者的音频数据的主观测试结果的示例。
具体实施方式
以下描述针对出于描述本公开的一些创新方面的目的的某些实 现以及其中可以实现这些创新方面的上下文的示例。然而,文中的教 导可以以各种不同的方式被应用。而且,所描述的实施例可以以各种 硬件、软件、固件等来实现。例如,本申请的各方面可以至少部分地 体现在装置、包括多于一个的设备的系统、方法、计算机程序产品等 中。因此,本申请的各方面可以采取硬件实施例、软件实施例(包括 固件、驻留软件、微代码等)和/或结合了软件和硬件方面两者的实施 例的形式。这样的实施例在文中可以被称为“电路”、“模块”或“引擎”。 本申请的一些方面可以采取在一种或多种非暂时性介质中体现的计 算机程序产品的形式,在非暂时性介质上体现有计算机可读程序代 码。这样的非暂时性介质可以例如包括硬盘、随机存取存储器(RAM)、 只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、 便携式光盘只读存储器(CD-ROM)、光学存储设备、磁性存储设备 或上述的任意适当组合。因此,本公开的教导不旨在限于附图中示出 和/或文中描述的实现,而是具有广泛的适用性。
发明人研究了与包括但不限于音频数据编码和解码的音频数据处理 有关的各种机器学习方法。特别地,发明人研究了使用与人类感知声 音的方式有关的损失函数来训练不同类型的神经网络的各种方法。根 据通过神经网络编码产生的音频数据,评估了这些损失函数中的每一 个的有效性。根据客观和主观标准评估了音频数据。在一些示例中, 由已经通过使用基于均方误差的损失函数训练的神经网络处理的音 频数据被用作评估根据文中公开的方法产生的音频数据的基础。在某 些情况下,通过主观标准进行评估的过程涉及让人类听众评估所得的 音频数据并获得听众的反馈。
文中公开的技术基于上述研究。本公开提供了使用基于感知的损 失函数来训练用于音频数据编码和/或解码的神经网络的各种示例。在 一些示例中,基于感知的损失函数是基于心理声学模型的。心理声学 模型可以例如至少部分地基于一个或多个心理声学掩蔽阈值。在一些 示例中,心理声学模型可以包括对外耳传递函数进行建模,将音频数 据分组为临界频带,频域掩蔽(包括但不限于水平相关的扩展),对 频率相关的听力阈值进行建模,和/或噪声掩蔽比的计算。在一些实施 方式中,损失函数可以涉及计算平均噪声掩蔽比。在一些这样的示例 中,训练过程可以包括最小化平均噪声掩蔽比。
图1是示出可以被配置为执行文中公开的方法中的至少一些的 装置的组件的示例的框图。在一些示例中,装置105可以是或可以包 括个人计算机,台式计算机或被配置为提供音频处理的其他本地设 备。在一些示例中,装置105可以是或可以包括服务器。根据一些示 例,装置105可以是被配置为经由网络接口与服务器通信的客户端设 备。可以经由硬件、经由存储在非暂时性介质上的软件、经由固件和 /或通过其组合来实现装置105的组件。图1所示的部件的类型和数量 以及文中公开的其他附图仅作为示例被示出。替代性实现可以包括更 多、更少和/或不同的组件。
在该示例中,装置105包括接口系统110和控制系统115。接 口系统110可以包括一个或多个网络接口,控制系统115与存储系统 之间的一个或多个接口,和/或一个或多个外部设备接口(诸如一个或 多个通用串行总线(USB)接口)。在一些实现中,接口系统110可以包括用户界面系统。用户界面系统可以被配置为从用户接收输入。 在一些实现中,用户界面系统可以被配置为向用户提供反馈。例如, 用户界面系统可以包括具有相应的触摸和/或手势检测系统的一个或 多个显示器。在一些示例中,用户界面系统可以包括一个或多个麦克 风和/或扬声器。根据一些示例,用户界面系统可以包括用于提供触觉 反馈的装置,诸如马达,振动器等。控制系统115可以例如包括通 用单芯片或多芯片处理器,数字信号处理器(DSP),专用集成电路 (ASIC),现场可编程门阵列(FPGA)或其他可编程逻辑器件,离 散门或晶体管逻辑器件,和/或离散硬件组件。
在一些示例中,装置105可以在单个设备中实现。然而,在一 些实现中,装置105可以在一个以上的设备中实现。在一些这样的 实现中,控制系统115的功能可以被包括在一个以上的设备中。在 一些示例中,装置105可以是另一设备的组件。
图2示出了根据一个示例的用于根据基于感知的损失函数来实 现机器学习的过程的框图。在该示例中,输入音频信号205被提供给 机器学习模块210。在一些示例中,输入音频信号205可以对应于人 类语音。然而,在其他示例中,输入音频信号205可以对应于其他 声音,例如音乐等。
根据一些示例,可以经由诸如控制系统115之类的一个或多个控 制系统来实现系统200的元件,包括但不限于机器学习模块210。机 器学习模块210可以例如经由诸如接口系统110之类的接口系统接收 输入音频信号205。在一些情况下,机器学习模块210可以被配置为 实现一个或多个神经网络,例如文中公开的神经网络。但是,在其 他实现中,机器学习模块210可以配置为实现一种或多种其他类型的 机器学习,例如非负矩阵分解,鲁棒主成分分析,稀疏编码,概率潜 在成分分析等。
在图2所示的示例中,机器学习模块210将输出音频信号215 提供给损失函数生成模块220。损失函数生成模块225和可选的真值 模块220可以例如经由诸如控制系统115的控制系统来实现。在一些 示例中,损失函数生成模块225、机器学习模块210和可选的真值模 块220可以经由同一设备实现,而在其他示例中,损失函数生成模块 225、可选的真值模块220和机器学习模块210可以经由不同的设备 来实现。
根据该示例,损失函数生成模块225接收输入音频信号205,并 且将输入音频信号205用作“真值”以用于误差确定。然而,在一些替 代实现中,损失函数生成模块225可以接收来自可选的真值模块220 的真值数据。这样的实现可以例如涉及诸如语音增强或语音去噪之类 的任务,其中真值不是原始输入音频信号。不管真值数据是输入音频 信号205还是从可选的真值模块接收的数据,损失函数生成模块225 都根据损失函数算法和真值数据来评估输出音频信号,并提供损失函 数值230到机器学习模块210。在一些这样的实现中,机器学习模块 210包括优化器模块315的实现,其在下文参考图3被描述。在其他 示例中,系统200包括与机器学习模块210和损失函数生成模块225 分开但与之通信的优化器模块315的实现。损失函数的各种示例在文 中被公开。在此示例中,损失函数生成模块225应用基于感知的损失 函数,其可以基于心理声学模型。根据该示例,经由机器学习模块210 实现的机器学习过程(例如,训练神经网络的过程)部分地基于损失 函数值230。
与使用基于均方误差(MSE)、L1-范数等的传统损失函数的机 器学习过程产生的输出音频信号的感知质量相比,采用基于感知的损 失函数(诸如基于心理声学模型的损失函数)用于机器学习(例如, 用于训练神经网络)可以提高输出音频信号215的感知质量。例如, 与由通过基于MSE的损失函数针对相同时间长度训练的具有相同架 构的神经网络产生的输出音频信号的感知质量相比,通过基于心理声 学模型的损失函数针对给定时间长度训练的神经网络可以提高输出 音频信号215的感知质量。而且,经由基于心理声学模型的损失函数 被训练收敛的神经网络通常将产生与经由基于MSE的损失函数被训 练收敛的具有相同架构的神经网络的输出音频信号相比感知质量更 高的输出音频信号。
一些公开的损失函数利用心理声学原理来确定输出音频信号 215中的哪些差异对于普通人而言是可听见的,而哪些差异对于普通 人而言是不可听见的。在一些示例中,基于心理声学模型的损失函数 可以采用心理声学现象,例如时间掩蔽、频率掩蔽、等响度曲线、水 平相关掩蔽、和/或人类听力阈值。在一些实现中,感知损失函数可以 在时域中操作,而在其他实现中,感知损失函数可以在频域中操作。 在替代实现中,感知损失函数可以涉及时域操作和频域操作两者。在 一些示例中,损失函数可以使用一帧输入来计算损失函数,而在其他 示例中,损失函数可以使用多个输入帧来计算损失函数。
图3示出了根据文中公开的一些实现的神经网络训练过程的示 例。与文中提供的其他附图一样,元件的数量和类型仅作为示例。根 据一些示例,系统301的元件可以经由诸如控制系统115的一个或多 个控制系统来实现。在图3所示的示例中,神经网络300是自编码器 (autoencoder)。设计自编码器的技术在Goodfellow,Ian,Yoshua Bengio和AaronCourville的《深度学习(Deep Learning)》(麻省 理工学院出版社,2016年)的第14章中进行了介绍,该文献通过引 用并入本文。
神经网络300包括节点层,节点在文中也称为“神经元”。每个神 经元都有一个实值激活函数(activation function),其输出通常称为 “激活”,它定义了被给定一个输入或一组输入的神经元的输出。根据 一些示例,神经网络300的神经元可以采用S型激活函数,ELU激活 函数和/或双曲正切激活函数。替代地或附加地,语音神经网络300 的神经元可以采用修正线性单元(ReLU)激活函数。
神经元之间的每个连接(也称为“突触(synapse)”)具有可修 改的实值权重。神经元可以是输入神经元(从网络外部接收数据), 输出神经元,或对从输入神经元到输出神经元的路径中数据进行修改 的隐藏神经元。在图3所示的示例中,神经元层1中的神经元是输入 神经元,神经元层7中的神经元是输出神经元,神经元层2-6中的神 经元是隐藏神经元。尽管图3中显示了五个隐藏层,但某些实现可 能包含更多或更少的隐藏层。神经网络300的某些实现可以包括更 多或更少的隐藏层,例如10个或更多个隐藏层。例如,一些实现可 以包括10、20、30、40、50、60、70、80、90个或更多个隐藏层。
在此,神经网络300的第一部分(编码部分305)被配置为生成 编码音频信号,而神经网络300的第二部分(解码部分310)被配置 为对编码音频信号进行解码。在该示例中,编码音频信号是压缩音频 信号,而解码音频信号是解压缩音频信号。因此,输入音频信号205被编码部分305压缩,如由用于示出神经元层1-4的块的减小的尺寸 所暗示的。在一些示例中,输入神经元层可以包括比编码部分305的 隐藏神经元层中的至少一个更多的神经元。然而,在替代实施方案中, 神经元层1-4全部可具有相同数目的神经元,或基本相似数目的神经 元。
因此,由编码部分305提供的压缩音频信号然后经由解码部分 310的神经元层被解码以构建输出信号215,该输出信号215是输入 音频信号205的估计。然后,可以使用诸如基于心理声学的损失函数 的感知损失函数在训练阶段期间确定神经网络300的参数的更新。这 些参数随后可被用于解码(例如,解压缩)已经使用由从训练算法接 收的参数确定的权重被编码(例如,压缩)的任何音频信号。换句话 说,在对于神经网络300确定了令人满意的权重之后,可以与训练过 程分开地进行编码和解码。
根据该示例,损失函数生成模块225接收音频输入信号205的至 少一部分,并将其用作真值数据。此处,损失函数生成模块225根据 损失函数算法和真值数据评估输出音频信号,并将损失函数值230提 供给优化器模块315。在该示例中,利用损失函数生成模块225所使 用的损失函数以及神经网络有关的信息来初始化优化器模块315。根 据该示例,优化器模块315使用该信息以及优化器模块315从损失函 数生成模块225接收的损失值一起来计算损失函数相对于神经网络权 重的梯度。一旦知道了该梯度,优化器模块315就使用优化算法来生 成神经网络权重的更新320。根据一些实现,优化器模块315可以采 用优化算法,诸如随机梯度下降或亚当(Adam)优化算法。亚当优 化算法在DP Kingma和JL Ba,“Adam:a Method for Stochastic Optimization”,国际学习表示法会议(ICLR),2015年,第1-15页 中公开,其通过引用而并入这里。在图3所示的示例中,优化器模块 315被配置为向神经网络300提供更新320。在该示例中,损失函数 生成模块225应用基于感知的损失函数,其可以基于心理声学模型。 根据该示例,训练神经网络300的过程至少部分地基于反向传播。这 种反向传播在图3中由神经元层之间的点划线箭头表示。反向传播(也 称为“后向传播”)是在神经网络中用以在处理一批数据之后计算每个 神经元的误差贡献的一种方法。后向传播技术有时称为误差的反向传 播,因为误差可以在输出处被计算并通过神经网络层被分配回去。
神经网络300可以由诸如上文参考图1描述的控制系统115之类 的控制系统来实现。因此,训练神经网络300可以包含改变与神经网 络300中的权重相对应的非暂时性存储介质位置的物理状态。存储介 质位置可以是控制系统或控制系统的一部分可访问的一个或多个存 储介质的部分。如上所述,权重对应于神经元之间的连接。训练神经 网络300还可包括改变与神经元的激活函数的值相对应的非暂时性存 储介质位置的物理状态。
图4A-4C示出了适合于实现文中公开的方法中的一些方法的神 经网络的替代示例。根据这些示例,输入神经元和隐藏神经元采用修 正线性单位(ReLU)激活函数,而输出神经元采用S型激活函数。 然而,神经网络300的替代实现可以包括其他激活函数和/或激活函数 的其他组合,包括但不限于指数线性单元(ELU)和/或双曲正切激活 函数。
根据这些示例,输入音频数据是256维音频数据。在图4A所 示的示例中,编码部分305将输入音频数据压缩为32维音频数据, 提供多达8倍的缩减。根据图4B中所示的示例,编码部分305将输 入音频数据压缩为16维音频数据,提供多达16倍的缩减。在图4C 中示出的神经网络300包括编码部分305,该编码部分305将输入音 频数据压缩为8维音频数据,提供多达32倍的缩减。发明人基于图 4B所示类型的神经网络进行了听力测试,下文描述其的一些结果。
图4D示出了根据替代示例的自编码器的编码部分的块的示例。 编码部分305可以例如由诸如上文参考图1描述的控制系统115的控 制系统来实现。编码部分305可以例如由控制系统的一个或多个处理 器根据存储在一个或多个非暂时性存储介质中的软件来实现。图4D 所示的元件的数量和类型仅仅是示例。编码部分305的其他实现可以 包括更多、更少或不同的元件。
在该示例中,编码部分305包括三层神经元。根据一些示例,编 码部分305的神经元可以采用ReLU激活函数。然而,根据一些替代 示例,编码部分305的神经元可以采用S型激活函数和/或双曲正切激 活函数。神经元层1-3中的神经元在维持N维输入数据的N维状态的 同时处理N维输入数据。层450被配置为接收神经元层3的输出并应 用池化(pooling)算法。池化是非线性下采样的一种形式。根据该示 例,层450被配置为应用最大池化函数,该最大池化函数将神经元层 3的输出划分成M个非重叠分区或“子区域”的集合,并且对于每个这 样的子区域,输出最大值。
图5A是概述根据一个示例的训练用于音频编码和解码的神经网 络的方法的块的流程图。在某些情况下,方法500可以由图1的装置 或其它类型的装置执行。在一些示例中,方法500的块可以经由存储 在一个或多个非暂时性介质上的软件来实现。像文中描述的其他方法 一样,方法500的块不一定按所指示的顺序执行。而且,这样的方法 可以包括比所示出和/或所描述的块更多或更少的块。
在此,块505涉及通过经由控制系统实现的神经网络接收输入音 频信号,该控制系统包括一个或多个处理器以及一个或多个非暂时性 存储介质。在一些示例中,神经网络可以是或可以包括自编码器。 根据一些示例,块505可以涉及图1的控制系统115经由接口系统110 接收输入音频信号。在一些示例中,块505可以涉及神经网络300接 收输入音频信号205,如上文参考图2到4C所描述的。在一些实现 中,输入音频信号205可以包括语音数据集的至少一部分,诸如已知 为TIMIT的可公开的语音数据集。TIMIT是由不同性别和方言的美 国英语说话者的音位和词汇转录语音的数据集。TIMIT受美国国防高 级研究计划局(DARPA)委托。TIMIT的语料库设计是德州仪器 (TI),麻省理工学院(MIT)和SRIInternational之间的共同努力。 根据一些示例,方法500可以包括例如经由快速傅立叶变换(FFT), 离散余弦变换(DCT)或短时傅立叶变换(STFT)将输入音频信号 205从时域变换到频域。在一些实现中,可以在块510之前将最小/最 大缩放应用于输入音频信号205。
根据该示例,块510涉及通过神经网络并基于输入音频信号生成 编码音频信号。编码音频信号可以是或可以包括压缩音频信号。块 510可以例如由神经网络的编码部分(诸如文中描述的神经网络300 的编码部分305)执行。然而,在其他示例中,块510可以涉及经由 不是神经网络的一部分的编码器生成编码音频信号。在一些这样的示 例中,实现神经网络的控制系统还可以包括不是神经网络的一部分的 编码器。例如,神经网络可以包括解码部分但不包括编码部分。
在该示例中,块515涉及经由控制系统对编码音频信号进行解码 以产生解码音频信号。解码音频信号可以是或可以包括解压缩音频信 号。在一些实现中,块515可以涉及产生解码的变换系数。块515可 以例如由神经网络的解码部分(诸如文中描述的神经网络300的解码 部分310)执行。然而,在其他示例中,块510可以涉及经由不是神 经网络的一部分的解码器来生成解码音频信号和/或解码的变换系数。 在一些这样的示例中,实现神经网络的控制系统还可以包括不是神经 网络的一部分的解码器。例如,神经网络可以包括编码部分但不包括 解码部分。
因此,在一些实现中,神经网络的第一部分可以被配置为生成编 码音频信号,并且神经网络的第二部分可以被配置为对编码音频信号 进行解码。在一些这样的实现中,神经网络的第一部分可以包括输 入神经元层和多个隐藏神经元层。在一些示例中,输入神经元层可以 包括比第一部分的隐藏神经元层中的至少一个隐藏神经元层更多的 神经元。然而,在替代实现中,输入神经元层可具有与第一部分的隐 藏神经元层相同数目的神经元,或基本相似数目的神经元。
根据一些示例,神经网络的第一部分的至少一些神经元可以被配 置有修正线性单元(ReLU)激活函数。在一些实现中,神经网络的 第二部分的隐藏层中的至少一些神经元可以配置有修正线性单元 (ReLU)激活函数。根据一些这样的实现,第二部分的输出层中的至少一些神经元可以被配置成具有S型激活函数。
在一些实现中,块520可以包括通过经由控制系统实现的损失函 数生成模块接收解码音频信号和/或解码的变换系数、以及真值信号。 真值信号可以例如包括真值音频信号和/或真值变换系数。在一些这样 的示例中,可以从诸如图2中示出并在上文描述的真值模块220的真 值模块接收真值信号。然而,在一些实现中,真值信号可以是(或可 以包括)输入音频信号或输入音频信号的一部分。损失函数生成模块 可以例如是文中公开的损失函数生成模块225的实例。
根据一些实现,块525可以包括由损失函数生成模块生成与解码 音频信号和/或解码的变换系数相对应的损失函数值。在一些这样的实 现中,生成损失函数值可以涉及应用心理声学模型。在图5A所示的 示例中,块530涉及基于损失函数值训练神经网络。训练可以涉及更 新神经网络中的至少一个权重。在一些这样的示例中,诸如上文已经 参考图3描述的优化器模块315之类的优化器可能已经通过损失函数 生成模块225所使用的(一个或多个)损失函数和神经网络有关的信 息被初始化。优化器模块315可以被配置为使用该信息以及优化器模 块315从损失函数生成模块225接收的损失函数值,来计算损失函数 相对于神经网络权重的梯度。在计算梯度之后,优化器模块315可以 使用优化算法来生成神经网络的权重的更新并将这些更新提供给神 经网络。训练神经网络可能涉及基于由优化器模块315提供的更新的 反向传播。Goodpellow,Ian,Yoshua Bengio和Aaron Courville,Deep Learning,(MIT press,2016)的第五章和第七章中描述了在神 经网络训练期间检测并解决过拟合的技术,其通过引用并入这里。训 练神经网络可涉及改变与神经网络的至少一个权重或至少一个激活 函数值相对应的至少一个非暂时性存储介质位置的物理状态。
心理声学模型可能会根据特定实现而改变。根据一些示例,心理 声学模型可以至少部分地基于一个或多个心理声学掩蔽阈值。在一些 实现中,应用心理声学模型可以包括对外耳传递函数进行建模,分组 为临界频带,频域掩蔽(包括但不限于水平相关的扩展),对频率相 关的听力阈值进行建模,和/或计算噪声掩蔽比。下面参考图6-10描 述一些示例。
在某些实现中,损失函数生成模块的损失函数的确定可能涉及计 算噪声掩蔽比(NMR),例如平均NMR。训练过程可能涉及最小化 平均NMR。一些示例在下文被描述。
根据一些示例,训练神经网络可以继续进行,直到损失函数相对 “平坦”,使得当前损失函数值与先前损失函数值(例如前一损失函数 值)之间的差等于或小于阈值。在图5所示的示例中,训练神经网络 可以包括重复块505至535中的至少一些,直到当前损失函数值与先 前损失函数值之间的差小于或等于预定值。
在已经训练了神经网络之后,神经网络(或其一部分)可被用于 处理音频数据,例如,用于编码或解码音频数据。图5B是概述根据 一个示例的使用经训练的神经网络进行音频编码的方法的块的流程 图。在某些情况下,方法540可以由图1的装置或其它类型的装置执 行。在一些示例中,方法540的块可以经由存储在一个或多个非暂时 性介质上的软件来实现。像文中描述的其他方法一样,方法540的块 不一定按所指示的顺序执行。而且,这样的方法可以包括比所示出和 /或所描述的更多或更少的块。
在该示例中,块545涉及接收当前输入的音频信号。在该示例中, 块545涉及通过控制系统接收当前输入的音频信号,该控制系统包括 一个或多个处理器以及可操作地耦合至一个或多个处理器的一个或 多个非暂时性存储介质。在此,控制系统被配置为实现包括已经根据 文中公开的方法中的一种或多种被训练的神经网络的音频编码器。
在一些示例中,训练过程可以包括:通过神经网络并经由接口系 统接收输入的训练音频信号;通过神经网络且基于输入的训练音频信 号生成编码的训练音频信号;经由控制系统对编码的训练音频信号进 行解码以产生解码的训练音频信号;通过经由控制系统实现的损失函 数生成模块来接收解码的训练音频信号和真值音频信号;通过损失函 数生成模块生成与解码的训练音频信号相对应的损失函数值,其中生 成损失函数值包括应用心理声学模型;以及基于损失函数值训练神经 网络。
根据此实现,块550涉及经由音频编码器以压缩音频格式对当前 输入的音频信号进行编码。这里,块555涉及输出压缩音频格式的编 码音频信号。
图5C是概述根据一个示例的使用经训练的神经网络进行音频解 码的方法的块的流程图。在某些情况下,方法560可以由图1的装 置或其它类型的装置执行。在一些示例中,方法560的块可以经由存 储在一个或多个非暂时性介质上的软件来实现。像文中描述的其他 方法一样,方法560的块不一定按所指示的顺序执行。而且,这样的 方法可以包括比所示出和/或所描述的更多或更少的块。
在该示例中,块565涉及接收当前输入的压缩音频信号。在一些 这样的示例中,当前输入的压缩音频信号可能已经根据方法540或通 过类似方法产生。在该示例中,块565涉及通过控制系统接收当前输 入的压缩音频信号,该控制系统包括一个或多个处理器以及可操作地 耦合至一个或多个处理器的一个或多个非暂时性存储介质。在此,控 制系统被配置为实现包括已经根据文中公开的方法中的一种或多种 被训练的神经网络的音频解码器。
根据该实现,块570涉及经由音频解码器对当前输入的压缩音频 信号进行解码。例如,块570可以包括解压缩当前输入的压缩音频 信号。在此,块575涉及输出解码音频信号。根据一些示例,方法 540可以包括经由一个或多个换能器来再现解码音频信号。
如上所述,发明人已经研究了使用与人类感知声音的方式有关的 损失函数来训练不同类型的神经网络的各种方法。根据通过神经网络 编码产生的音频数据来评估每个损失函数的有效性。在一些示例中, 由已经通过使用基于均方误差(MSE)的损失函数被训练的神经网络 处理的音频数据被用作用于评估根据文中公开的方法产生的音频数 据的基础。
图6是示出损失函数生成模块的块图,该损失函数生成模块被配 置为基于均方误差生成损失函数。在此,将由神经网络产生的音频信 号的估计幅值和真值/真实音频信号的幅值两者都提供给损失函数生 成模块225。损失函数生成模块225基于MSE值生成损失函数值230。 损失函数值230可以被提供给优化器模块,该优化器模块被配置为生 成对神经网络的权重的更新以用于训练。
发明人已经评估了至少部分地基于人耳的一个或多个部分的声 学响应的模型(也可以称为“耳模型”)的损耗函数的一些实现。图7A 是近似人耳道的典型声学响应的函数的曲线图。
图7B示出了损失函数生成模块,其被配置为基于人耳道的典型 声学响应来生成损失函数。在该示例中,将函数W应用于通过神经 网络产生的音频信号和真值/真实音频信号。
在某些示例中,函数W可以如下:
Figure BDA0003747358960000181
式1已用于出于对人耳道的声学响应进行建模的目的的音频质 量感知评估(PEAQ)算法的实现。在式1中,f表示音频信号的频率。 在该示例中,损失函数生成模块225基于两个结果值之间的差来生成 损失函数值230。损失函数值230可以被提供给优化器模块,该优化 器模块被配置为生成对神经网络的权重的更新以用于训练。
当与由根据基于MSE的损失函数训练的神经网络产生的音频信 号进行比较时,通过使用诸如图7B中所示的损失函数训练神经网络 而产生的音频信号仅提供了轻微的改进。例如,使用基于感知客观听 力质量分析(POLQA)的客观标准,基于MSE的音频数据的得分为 3.41,而通过使用如图7B所示的损失函数训练神经网络而产生的音 频数据得分为3.48。
在一些实验中,发明人测试了由根据基于分带操作的损失函数训 练的神经网络产生的音频信号。图8示出了损失函数生成模块,其被 配置为基于分带操作来生成损失函数。在该示例中,损失函数生成模 块225被配置为对由神经网络产生的音频信号和真值/真实音频信号 执行分带操作,并计算结果之间的差。
在一些实施方式中,分带操作基于“Zwicker”带,其是根据Fastl, H.&Zwicker,E.(2007),《心理声学:事实和模型》(第3版, Springer)的第6章(临界带和激发)定义的临界带,其通过引用并 入这里。在替代实现中,分带操作基于“Moore”带,其是根据Moore,B.C.J.(2012),《听力心理学概论》(Emerald Group Publishing) 的第三章(频率选择性,掩蔽和临界带)定义的临界带,其通过引用 并入这里。但是,其他示例可能涉及本领域技术人员已知的其他类 型的分带操作。
根据他们的实验,发明人得出的结论是,单独的分带操作不可能 提供令人满意的结果。例如,使用基于POLQA的客观标准,基于 MSE的音频数据获得3.41分,而在一个示例中,通过使用分带操作 对神经网络进行训练而产生的音频数据仅获得1.62分。
在一些实验中,发明人测试了由根据至少部分地基于频率掩蔽的 损失函数训练的神经网络产生的音频信号。图9A示出了根据一些示 例的频率掩蔽所涉及的过程。在该示例中,在频域中计算扩展函数。 该扩展函数可以例如是依赖于电平和频率的函数,其可以根据输入音 频数据(例如根据每个输入音频帧)被估计。然后可以执行与输入音 频的频谱的卷积,这产生激励图案。输入音频数据和扩展函数之间 的卷积结果是人类听觉滤波器如何对传入声音的激励做出反应的近 似值。因此,该过程是人类听力机制的模拟。在一些实现中,音频数 据被分组到频率区段中,并且卷积过程包括将每个频率区段的扩展函 数与该频率区段的相应音频数据进行卷积。
可以调整激励图案以产生掩模图案。在一些示例中,可以将激励 图案向下调整例如20dB,以产生掩模图案。
图9B示出了扩展函数的示例。根据该示例,扩展函数是简化的 不对称三角函数,其可被预先计算以进行高效实现。在此简化示例中, 垂直轴表示分贝,水平轴表示Bark子带。根据一个这样的示例,扩 展函数被如下地计算:
Sl=27 (式2)
Figure BDA0003747358960000201
在式2和3中,Sl表示图9B的扩展函数的在峰值频率左侧的部 分的斜率,而Su表示扩频函数的在峰值频率右侧的部分的斜率。斜率 单位是dB/Bark。在式3中,f代表扩展函数的中心频率或峰值频 率,L代表音频数据的电平或幅度。在一些示例中,为了简化扩展函数的计算,可以假设L为常数。根据一些这样的示例,L可以是70dB。
在一些这样的实现中,可以如下地计算激励图案:
Figure BDA0003747358960000202
在式4中,E表示激励函数(在文中也称为激励图案),SF表 示扩频函数,并且BP表示分频率区段的音频数据的带状模式。在一 些实现中,可调整激励图案以产生掩蔽图案。在一些示例中,可以将 激励图案向下调整,例如向下调整20dB,24dB,27dB等,以产生掩 蔽图案。
图10示出了损失函数生成模块的替代实现的示例。损失函数生 成模块225的元件可以例如由诸如参考图1在上文描述的控制系统 115之类的控制系统来实现。
在该示例中,将参考音频信号xref提供给损失函数生成模块225 的快速傅立叶变换(FFT)块1005a,该参考音频信号xref是文中其他 各处所引用的真值信号的实例。由诸如文中公开的那些神经网络之一 的神经网络产生的测试音频信号x被提供给损失函数生成模块225的 FFT块1005b。
根据该示例,FFT块1005a的输出被提供给耳模型块1010a,并 且FFT块1005b的输出被提供给耳模型块101b。耳模型块1010a和 1010b可以例如被配置为应用基于人耳的一个或多个部分的典型声学 响应的函数。在一个这样的示例中,耳模型块1010a和1010b可以被 配置为应用上文式1中所示的函数。
根据该实现,将耳模型块1010a和1010b的输出提供给差值计算 块1015,其被配置为计算耳模型块1010a的输出与耳模型块1010b的 输出之间的差值。差值计算块1015的输出可以被认为是测试信号x 中的噪声的近似值。
在该示例中,将耳模型块1010a的输出提供给分带块1020a,并 且将差值计算块1015的输出提供给分带块1020b。分带块1020a和 1020b被配置为应用相同类型的分带过程,其可以是以上公开的分带 过程(例如,Zwicker或Moore分带过程)之一。然而,在替代实施 方式中,分带块1020a和1020b可以被配置为应用本领域技术人员已 知的任何合适的分带过程。
分带块1020a的输出被提供给频率掩蔽块1025,其被配置为施 加频率掩蔽操作。掩蔽块1025可以例如被配置为应用文中公开的频 率掩蔽操作中的一个或多个。如以上参考图9B所述,使用简化的频 率掩蔽过程可以提供潜在的优点。然而,在替代实现中,掩蔽块1025 可被配置为应用本领域技术人员已知的一个或多个其他频率掩蔽操 作。
根据该示例,掩蔽块1025的输出和分带块1020b的输出都被提 供给噪声掩蔽比(NMR)计算块1030。如上所述,差计算块1015 的输出可以被认为是测试信号x中的噪声的近似值。因此,分带块 1020b的输出可以被认为是测试信号x中的噪声的频带形式。根据一 个示例,NMR计算块1030可以如下计算NMR:
Figure BDA0003747358960000221
在式5中,BPnoise代表分带块1020b的输出,MP代表掩蔽块1025 的输出。根据一些示例,由NMR计算块1030计算出的NMR可以是 在由分带块1020a和1020b输出的所有频带上的平均NMR。由NMR 计算块1030计算出的NMR可以用作损失函数值230,用于训练神经 网络,例如上文所述的神经网络。例如,损失函数值230可以被提供 给优化器模块,该优化器模块被配置为生成神经网络的更新的权重。
图11示出了一些公开的实现的客观测试结果的示例。图11示出 了由如下神经网络产生的音频数据的PESQ得分之间的比较,该神经 网络使用基于MSE、幂定律、NMR-Zwicker(基于像Zwicker分带 过程那样的分带过程的NMR,但是具有比Zwicker所定义的那些频 带略窄的)、以及NMR-Moore(基于Moore分带过程的NMR)。基 于上面参考图4B所述的神经网络的输出的这些结果示出 NMR-Zwicker和NMR-Moore结果均比MSE和幂定律结果好一些。
图12示出了由使用各种损失函数训练的神经网络产生的、对应 于男性讲话者的音频数据的主观测试结果的示例。在此示例中,主 观测试结果是具有隐藏参考和锚点的多重刺激测试(MUSHRA)的等 级。在ITU-R BS.1534中被描述的MUSHRA是一种公知的方法,用于进行编解码器收听测试,以评估有损音频压缩算法的输出的感知质 量。MUSHRA方法的优点是可以同时显示许多刺激,因此受试者可 以直接在它们之间进行任何比较。与其他方法相比,使用MUSHRA 方法执行测试所需的时间可以大大减少。之所以如此,部分原因在 于所有编解码器的结果都在相同样本上同时呈现,因此可以将配对t 测试或分析用于统计分析。图12中沿x轴的数字是不同音频文件的 标识号。
更具体地说,图12示出了由使用基于MSE的损失函数、基于 幂定律的损失函数、基于NMR-Zwicker的损失函数和使用基于 NMR-Moore的损失函数训练的同一神经网络生成的音频数据,通过 应用3.5kHz低通滤波器(MUSHRA技术的标准“锚”之一)产生的 音频数据以及参考音频数据的MUSHRA评分之间的比较。在此示例 中,MUSHRA评分是从11个不同的收听者那里获得的。如图12所 示,由使用基于NMR-Moore的损失函数训练的神经网络产生的音频 数据的平均MUSHRA评分显著高于任何其他评分。两者之间的差约 为30MUSHRA点,是一个罕见的大效果。第二高的平均MUSHRA 评分是对于由使用基于NMR-Zwicker的损失函数训练的神经网络生 成的音频数据的。
图13示出了由与图12所示相同类型的损失函数训练的神经网络 生成的、对应于女性讲话者的音频数据的主观测试结果的示例。如图 12中那样,沿图13中x轴的数字是不同音频文件的标识号。在此示 例中,最高平均MUSHRA评分再次分配给了由使用基于NMR的损 失函数训练的神经网络生成的音频数据。尽管在该示例中, NMR-Moore和NMR-Zwicker音频数据与其他音频数据之间的感知 差异没有图12中所示的感知差异明显,但图13中所示的结果仍然表 明存在显着改善。
在不脱离本公开的范围的情况下,文中定义的一般原理可以应用 于其他实现。因此,权利要求书无意限于文中所展示的实施方案, 而是应被赋予与本公开、原理及新颖特征一致的最广范围。
从以下列举的示例实施例(EEE)中可以理解本发明的各个方面:
1.一种计算机实现的音频处理方法,包括:
通过经由包括一个或多个处理器和一个或多个非暂时性存储介 质的控制系统实现的神经网络,接收输入音频信号;
通过神经网络并基于输入音频信号生成编码音频信号;
经由所述控制系统对编码音频信号进行解码以产生解码音频信 号;
通过经由所述控制系统实现的损失函数生成模块,接收解码音频 信号和真值音频信号;
通过损失函数生成模块生成与解码音频信号相对应的损失函数 值,其中生成损失函数值包括应用心理声学模型;以及
基于所述损失函数值来训练神经网络,其中训练包括更新神经网 络的至少一个权重。
2.EEE 1的方法,其中训练神经网络包括基于损失函数值的反向 传播。
3.EEE 1或EEE 2的方法,其中神经网络包括自编码器。
4.EEE 1-3中任一项的方法,其中训练神经网络包括改变对应于 神经网络的至少一个权重的至少一个非暂时性存储介质位置的物理 状态。
5.EEE 1-4中任一项的方法,其中神经网络的第一部分生成编码 音频信号,并且神经网络的第二部分对编码音频信号进行解码。
6.EEE 5的方法,其中神经网络的第一部分包括输入神经元层和 多个隐藏神经元层,其中输入神经元层比最终隐藏神经元层包含更多 的神经元。
7.EEE 5的方法,其中神经网络的第一部分的至少一些神经元被 配置有修正线性单元(ReLU)激活函数。
8.EEE 5的方法,其中在神经网络第二部分的隐藏层中的至少一 些神经元被配置有修正线性单元(ReLU)激活函数,并且在第二部 分的输出层中的至少一些神经元被配置有S型激活函数。
9.EEE 1至8中任一项的方法,其中,所述心理声学模型至少部 分地基于一个或多个心理声学掩蔽阈值。
10.EEE 1-9中任一项的方法,其中所述心理声学模型涉及以下 中的一项或多项:对外耳传递函数建模;分组为临界频段;频域掩蔽, 包括但不限于水平相关扩展;频率相关的听力阈值的建模;或计算噪 声掩蔽比。
11.EEE 1-10中任一项的方法,其中,所述损失函数包括计算平 均噪声掩蔽比,并且其中,所述训练包括最小化所述平均噪声掩蔽比。
12.一种音频编码方法,包括:
通过控制系统接收当前输入的音频信号,该控制系统包括一个或 多个处理器和可操作地耦合到一个或多个处理器的一个或多个非暂 时性存储介质,该控制系统被配置为实现包括已根据EEE 1-11中的 方法中的任一种训练的神经网络的音频编码器;
通过音频编码器,以压缩音频格式对当前输入的音频信号进行编 码;和
输出压缩音频格式的编码音频信号。
13.一种音频解码方法,包括:
通过控制系统接收当前输入的压缩音频信号,该控制系统包括一 个或多个处理器和可操作地耦合到一个或多个处理器的一个或多个 非暂时性存储介质,该控制系统被配置为:实现包括已根据EEE 1-11 中的方法的任何一种进行了训练的神经网络的音频解码器;
通过音频解码器对当前输入的压缩音频信号进行解码;以及
输出解码音频信号。
14.EEE 13的方法,还包括经由一个或多个换能器再现解码音频 信号。
15.一种装置,包括:
接口系统;和
控制系统,包括一个或多个处理器以及可操作地耦合到一个或多 个处理器的一个或多个非暂时性存储介质,该控制系统配置为实现 EEE 1-14中任一项的方法。
16.一个或多个非暂时性介质,其上存储有软件,该软件包括用 于控制一个或多个设备以执行EEE 1-14中任一项的方法的指令。
17.一种音频编码装置,包括:
接口系统;和
控制系统,包括一个或多个处理器以及可操作地耦合到一个或多 个处理器的一个或多个非暂时性存储介质,该控制系统配置为实现音 频编码器,该音频编码器包括已根据EEE 1-11所述的方法中的任一 个被训练的神经网络,其中,所述控制系统配置为:
接收当前输入的音频信号;
以压缩音频格式编码当前输入的音频信号;
输出压缩音频格式的编码音频信号。
18.一种音频编码装置,包括:
接口系统;和
控制系统,包括一个或多个处理器和可操作地耦合到一个或多个 处理器的一个或多个非暂时性存储介质,该控制系统配置为实现包括 已根据以下操作被训练的神经网络的音频编码器,该操作包括:
通过神经网络并通过接口系统接收输入的训练音频信号;
通过神经网络并基于输入的训练音频信号生成编码的训练音频 信号;
经由控制系统对编码的训练音频信号进行解码以产生解码的训 练音频信号;
通过经由所述控制系统实现的损失函数生成模块,接收解码的训 练音频信号和真值音频信号;
通过所述损失函数生成模块生成与所述解码后的训练音频信号 对应的损失函数值,其中,产生损失函数值包括:应用心理声学模型; 和
根据损失函数值训练神经网络;
其中,音频编码器进一步被配置为:
接收当前输入的音频信号;
以压缩音频格式编码当前输入的音频信号;
输出压缩音频格式的编码音频信号。
19.一种包括音频解码装置的系统,包括:
接口系统;
控制系统,该控制系统包括一个或多个处理器以及可操作地耦合 到一个或多个处理器的一个或多个非暂时性存储介质,该控制系统配 置为实现音频解码器,该音频解码器包括已根据以下操作被训练的神 经网络,该操作包括:
通过神经网络并通过接口系统接收输入的训练音频信号;
通过神经网络并基于输入的训练音频信号生成编码的训练音频 信号;
经由控制系统对编码的训练音频信号进行解码以生成解码的训 练音频信号;
通过经由控制系统实现的损失函数生成模块,接收解码的训练音 频信号和真值音频信号;
通过损失函数生成模块生成与所述解码后的训练音频信号对应 的损失函数值,其中,产生所述损失函数值包括应用心理声学模型; 和
基于损失函数值训练神经网络;
其中,音频解码器进一步配置为:
接收压缩音频格式的当前输入的编码音频信号;
以解压缩的音频格式对当前输入的编码音频信号进行解码;和
输出解压缩音频格式的解码音频信号。
20.EEE 19的系统,其中该系统进一步包括一个或多个换能器, 其被配置用于再现解码的音频信号。

Claims (11)

1.一种用于训练经由控制系统实现的神经网络的编码部分的计算机实现的方法,该控制系统包括一个或多个处理器以及一个或多个非暂时性存储介质,该方法包括:
接收包括音频数据的输入音频信号;
通过神经网络的编码部分并基于输入的音频信号生成编码音频信号;
基于损失函数值训练所述编码部分,其中训练涉及更新所述编码部分的至少一个权重,
其中生成损失函数值包括应用心理声学模型。
2.如权利要求1所述的方法,其中通过应用心理声学模型生成损失函数值还包括计算噪声掩蔽比。
3.如权利要求1或2所述的方法,其中训练所述神经网络的所述编码部分包括基于所述损失函数值的反向传播。
4.一种音频编码器,包括根据如权利要求1至3中任一项所述的方法被训练的神经网络的编码部分,其中,所述音频编码器还被配置为:
接收当前输入的音频信号;
以压缩音频格式编码所述当前输入的音频信号;以及
输出压缩音频格式的编码信号。
5.一种音频编码装置,包括:
接口系统;以及
控制系统,其包括一个或多个处理器以及可操作地耦合到所述一个或多个处理器的一个或多个非暂时性存储介质,所述控制系统被配置为实现根据权利要求4所述的音频编码器。
6.一种用于训练经由控制系统实现的神经网络的解码部分的计算机实现的方法,该控制系统包括一个或多个处理器以及一个或多个非暂时性存储介质,该方法包括:
通过神经网络的解码部分对编码音频信号进行解码,以产生解码音频信号和/或解码变换系数中的至少一者;
基于损失函数值训练所述神经网络的所述解码部分,其中训练涉及更新所述神经网络的所述解码部分的至少一个权重,
其中生成损失函数值包括应用心理声学模型。
7.如权利要求6所述的方法,其中通过应用心理声学模型生成损失函数值还包括计算噪声掩蔽比。
8.如权利要求6或7所述的方法,进一步包括:
通过经由控制系统实现的损失函数生成模块,接收解码音频信号和/或所述解码变换系数中的所述至少一者以及真值音频信号;
通过损失函数生成模块生成与解码音频信号和/或所述解码变换系数中的所述至少一者相对应的损失函数值。
9.一种音频解码器,包括根据如权利要求6至8中的任一项所述的方法训练的神经网络的解码部分,其中,所述音频解码器还被配置为:
接收压缩音频格式的当前输入的编码音频信号;
以解压缩音频格式解码当前输入的编码音频信号;以及
输出解压缩音频格式的解码音频信号。
10.一种音频解码装置,包括:
接口系统;
控制系统,包括一个或多个处理器以及可操作地耦合到一个或多个处理器的一个或多个非暂时性存储介质,该控制系统配置为实现音频解码器,所述音频解码器包括根据如权利要求6至8中任一项所述的方法被训练的神经网络的解码部分,
其中所述音频解码器还被配置为:
接收压缩音频格式的当前输入的编码音频信号;
以解压缩音频格式解码当前输入的编码音频信号;以及
输出解压缩音频格式的解码音频信号。
11.一种包括如权利要求10所述的音频解码装置的系统,其中,所述系统还包括被配置为用于再现所述解码音频信号的一个或多个换能器。
CN202210834906.8A 2018-04-11 2019-04-10 基于机器学习的用于音频编码和解码的基于感知的损失函数 Pending CN115410583A (zh)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US201862656275P 2018-04-11 2018-04-11
US62/656,275 2018-04-11
EP18173673 2018-05-22
EP18173673.7 2018-05-22
US201962829552P 2019-04-04 2019-04-04
US62/829,552 2019-04-04
PCT/US2019/026824 WO2019199995A1 (en) 2018-04-11 2019-04-10 Perceptually-based loss functions for audio encoding and decoding based on machine learning
CN201980030729.4A CN112105902B (zh) 2018-04-11 2019-04-10 基于机器学习的用于音频编码和解码的基于感知的损失函数

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201980030729.4A Division CN112105902B (zh) 2018-04-11 2019-04-10 基于机器学习的用于音频编码和解码的基于感知的损失函数

Publications (1)

Publication Number Publication Date
CN115410583A true CN115410583A (zh) 2022-11-29

Family

ID=66182689

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210834906.8A Pending CN115410583A (zh) 2018-04-11 2019-04-10 基于机器学习的用于音频编码和解码的基于感知的损失函数
CN201980030729.4A Active CN112105902B (zh) 2018-04-11 2019-04-10 基于机器学习的用于音频编码和解码的基于感知的损失函数

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201980030729.4A Active CN112105902B (zh) 2018-04-11 2019-04-10 基于机器学习的用于音频编码和解码的基于感知的损失函数

Country Status (5)

Country Link
US (2) US11817111B2 (zh)
EP (1) EP3775821A1 (zh)
JP (2) JP7387634B2 (zh)
CN (2) CN115410583A (zh)
WO (1) WO2019199995A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019199995A1 (en) * 2018-04-11 2019-10-17 Dolby Laboratories Licensing Corporation Perceptually-based loss functions for audio encoding and decoding based on machine learning
US11183201B2 (en) * 2019-06-10 2021-11-23 John Alexander Angland System and method for transferring a voice from one body of recordings to other recordings
JP7328799B2 (ja) * 2019-06-12 2023-08-17 株式会社日立製作所 ストレージシステムおよび記憶制御方法
JP7399646B2 (ja) * 2019-08-14 2023-12-18 キヤノンメディカルシステムズ株式会社 データ圧縮装置およびデータ圧縮方法
US11501787B2 (en) * 2019-08-22 2022-11-15 Google Llc Self-supervised audio representation learning for mobile devices
US11532318B2 (en) * 2019-11-29 2022-12-20 Neural DSP Technologies Oy Neural modeler of audio systems
KR102529272B1 (ko) * 2019-12-20 2023-05-08 한국전자통신연구원 보안 통신 방법 및 이를 수행하는 장치
US11790926B2 (en) 2020-01-28 2023-10-17 Electronics And Telecommunications Research Institute Method and apparatus for processing audio signal
EP4229627A1 (en) * 2020-10-15 2023-08-23 Dolby Laboratories Licensing Corporation Method and apparatus for processing of audio using a neural network
US11900902B2 (en) * 2021-04-12 2024-02-13 Adobe Inc. Deep encoder for performing audio processing
CN114400014A (zh) * 2021-12-09 2022-04-26 慧之安信息技术股份有限公司 一种基于深度学习的音频码流压缩方法和装置
CN116306889A (zh) * 2022-09-08 2023-06-23 维沃移动通信有限公司 模型训练方法、装置、电子设备及介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3578933B2 (ja) 1999-02-17 2004-10-20 日本電信電話株式会社 重み符号帳の作成方法及び符号帳設計時における学習時のma予測係数の初期値の設定方法並びに音響信号の符号化方法及びその復号方法並びに符号化プログラムが記憶されたコンピュータに読み取り可能な記憶媒体及び復号プログラムが記憶されたコンピュータに読み取り可能な記憶媒体
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
DE10217297A1 (de) * 2002-04-18 2003-11-06 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten
US7398204B2 (en) 2002-08-27 2008-07-08 Her Majesty In Right Of Canada As Represented By The Minister Of Industry Bit rate reduction in audio encoders by exploiting inharmonicity effects and auditory temporal masking
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
CN101790757B (zh) * 2007-08-27 2012-05-30 爱立信电话股份有限公司 语音与音频信号的改进的变换编码
JP2009223437A (ja) 2008-03-13 2009-10-01 Toyota Motor Corp 新規信号生成装置、新規信号生成方法
RU2464649C1 (ru) * 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
US8484022B1 (en) * 2012-07-27 2013-07-09 Google Inc. Adaptive auto-encoders
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
MX347410B (es) 2013-01-29 2017-04-26 Fraunhofer Ges Forschung Aparato y metodo para seleccionar uno de un primer algoritmo de codificacion y un segundo algoritmo de codificacion.
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9679258B2 (en) 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US9858919B2 (en) 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US9390712B2 (en) 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
US10515301B2 (en) 2015-04-17 2019-12-24 Microsoft Technology Licensing, Llc Small-footprint deep neural network
CN105070293B (zh) 2015-08-31 2018-08-21 武汉大学 基于深度神经网络的音频带宽扩展编码解码方法及装置
US11373672B2 (en) * 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN107516527A (zh) * 2016-06-17 2017-12-26 中兴通讯股份有限公司 一种语音编解码方法和终端
US11538455B2 (en) * 2018-02-16 2022-12-27 Dolby Laboratories Licensing Corporation Speech style transfer
WO2019199995A1 (en) * 2018-04-11 2019-10-17 Dolby Laboratories Licensing Corporation Perceptually-based loss functions for audio encoding and decoding based on machine learning
US11687778B2 (en) * 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals

Also Published As

Publication number Publication date
JP7387634B2 (ja) 2023-11-28
CN112105902A (zh) 2020-12-18
EP3775821A1 (en) 2021-02-17
JP2021521476A (ja) 2021-08-26
CN112105902B (zh) 2022-07-22
US20210082444A1 (en) 2021-03-18
US11817111B2 (en) 2023-11-14
JP2024003166A (ja) 2024-01-11
US20240079019A1 (en) 2024-03-07
WO2019199995A1 (en) 2019-10-17

Similar Documents

Publication Publication Date Title
CN112105902B (zh) 基于机器学习的用于音频编码和解码的基于感知的损失函数
Liutkus et al. Informed source separation through spectrogram coding and data embedding
CN101410892B (zh) 改进的离散余弦变换域中的音频信号响度测量及修改
CN102792374B (zh) 多通道音频中语音相关通道的缩放回避的方法和系统
RU2439718C1 (ru) Способ и устройство для обработки звукового сигнала
RU2639952C2 (ru) Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
EP1400955A2 (en) Quantization and inverse quantization for audio signals
JP7314279B2 (ja) 音質の推定および制御を使用した音源分離のための装置および方法
KR102284104B1 (ko) 입력 신호를 처리하기 위한 인코딩 장치 및 인코딩된 신호를 처리하기 위한 디코딩 장치
WO2020016440A1 (en) Systems and methods for modifying an audio signal using custom psychoacoustic models
Abdullah et al. Towards more efficient DNN-based speech enhancement using quantized correlation mask
EP2476114B1 (en) Audio signal encoding employing interchannel and temporal redundancy reduction
Braun et al. Effect of noise suppression losses on speech distortion and ASR performance
KR102556098B1 (ko) 심리음향 기반 가중된 오류 함수를 이용한 오디오 신호 부호화 방법 및 장치, 그리고 오디오 신호 복호화 방법 및 장치
CN113470688B (zh) 语音数据的分离方法、装置、设备及存储介质
Porov et al. Music enhancement by a novel CNN architecture
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
Raj et al. Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients
US8788277B2 (en) Apparatus and methods for processing a signal using a fixed-point operation
EP2571170A1 (en) Encoding method, decoding method, encoding device, decoding device, program, and recording medium
WO2023086311A1 (en) Control of speech preservation in speech enhancement
Lim et al. End-to-end neural audio coding in the MDCT domain
WO2023278889A1 (en) Compressing audio waveforms using neural networks and vector quantizers
Raj et al. Audio signal quality enhancement using multi-layered convolutional neural network based auto encoder–decoder
RU2782364C1 (ru) Устройство и способ отделения источников с использованием оценки и управления качеством звука

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination