CN116324979A

CN116324979A - 音频编码装置和方法，以及音频解码装置和方法

Info

Publication number: CN116324979A
Application number: CN202180066296.5A
Authority: CN
Inventors: 南佑铉; 孙允宰; 郑铉权; 黄盛凞
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2020-09-28
Filing date: 2021-09-24
Publication date: 2023-06-23
Also published as: EP4202921A1; WO2022065933A1; US20230238003A1; EP4202921A4

Abstract

根据一个实施例，公开了一种音频信号处理装置，包括：用于存储指令的存储器；以及用于执行存储在存储器中的指令的处理器，其中：该处理器通过对包括n个声道的第一音频信号进行频率变换，在频域中生成第一音频信号，在第一DNN的基础上在频域中从第一音频信号生成特定声道的频率特征信号，在第二DNN的基础上在从第一音频信号生成包括m(m<n)个声道的第二音频信号，并且通过对第二音频信号和频率特征信号进行编码来生成输出音频信号；第一音频信号是包括零阶信号和多个一阶信号的高阶环绕声信号，第二音频信号包括单声道信号或立体声信号。

Description

音频编码装置和方法，以及音频解码装置和方法

技术领域

本公开涉及音频编码和解码领域。更具体地说，本公开涉及基于人工智能(AI)的对包括多个声道(channel)的音频进行编码和解码的领域。

背景技术

音频由符合特定压缩标准的编码解码器编码，例如，高级音频编码(AAD)标准、OPUS标准等，然后以比特流的形式存储在记录介质中或通过通信信道发送。

一般来说，由于通用编码解码器不支持对多声道音频进行编码/解码以向听众提供空间三维效果，因此需要通过使用通用编码解码器以低比特率对多声道音频进行编码/解码的方法。

发明内容

技术问题

实施例的技术目标是通过使用支持少声道(few-channel)音频编码/解码的通用编码解码器来编码/解码多声道音频。

另外，实施例的技术目标是以低比特率编码多声道音频，并以高质量重建(reconstruct)多声道音频。

技术方案

根据实施例，音频信号处理装置可以包括：存储一个或多个指令的存储器；以及被配置为执行存储在存储器中的一个或多个指令的处理器，其中，该处理器被配置为：对包括n个声道的第一音频信号进行频率变换以生成频域的第一音频信号，基于第一深度神经网络(DNN)从频域的第一音频信号生成每个声道的频率特征信号，基于第二DNN从第一音频信号生成包括m(其中，m<n)个声道的第二音频信号，并且通过对第二音频信号和频率特征信号进行编码来生成输出音频信号，其中，第一音频信号是包括零阶信号和多个一阶信号的高阶环绕声(ambisonic)信号，第二音频信号包括单声道信号和立体声信号中的一个。

有益效果

根据实施例，多声道音频可以通过使用支持少声道音频的编码/解码的通用编码解码器来编码/解码。

此外，根据实施例，可以以低比特率编码并且可以以高质量重建多声道音频。

然而，根据实施例可从音频编码装置和方法以及音频解码装置和方法获得的效果不限于上述效果，并且根据下文的描述，本领域普通技术人员将清楚地理解其他未说明的效果。

附图说明

提供了关于各个附图的简要说明，以获得对本说明书附图的充分理解。

图1示出了根据实施例的编码和解码音频的过程。

图2示出了根据实施例的音频编码装置的配置的框图。

图3示出了包括在高阶环绕声信号中的信号的示例。

图4示出了根据实施例的第一深度神经网络(DNN)。

图5示出了频域的第一音频信号与图4所示的频率特征信号之间的比较。

图6示出了根据实施例的第二DNN。

图7示出了组合音频特征信号与频率特征信号的方法。

图8示出了组合音频特征信号与频率特征信号的方法。

图9示出了根据实施例的音频解码装置的配置的框图。

图10示出了根据实施例的第三DNN。

图11示出了根据实施例的第四DNN。

图12示出了训练第一DNN、第二DNN、第三DNN和第四DNN的方法。

图13示出了用于描述由训练装置训练第一DNN、第二DNN、第三DNN和第四DNN的过程的流程图。

图14示出了用于描述由训练装置训练第一DNN、第二DNN、第三DNN和第四DNN的过程的流程图。

图15示出了训练第一DNN、第二DNN、第三DNN和第四DNN的另一种方法。

图16示出了用于描述由训练装置训练第一DNN、第二DNN、第三DNN和第四DNN的另一过程的流程图。

图17示出了用于描述由训练装置训练第一DNN、第二DNN、第三DNN和第四DNN的另一过程的流程图。

图18示出了用于描述根据实施例的音频编码方法的流程图。

图19示出了用于描述根据实施例的音频解码方法的流程图。

具体实施方式

根据实施例，音频信号处理装置可以包括：存储一个或多个指令的存储器；以及被配置为执行存储在存储器中的一个或多个指令的处理器，其中，该处理器被配置为：对包括n个声道的第一音频信号进行频率变换以生成频域的第一音频信号，基于第一深度神经网络(DNN)从频域的第一音频信号生成每个声道的频率特征信号，基于第二DNN从第一音频信号生成包括m(其中，m<n)个声道的第二音频信号，并且通过对第二音频信号和频率特征信号进行编码来生成输出音频信号，其中，第一音频信号是包括零阶信号和多个一阶信号的高阶环绕声信号，第二音频信号包括单声道信号和立体声信号中的一个。

频率特征信号可以包括每个声道的代表值，并且每个声道的代表值可以是对应于频域的第一音频信号的每个声道的多个频带的值。

第二DNN可以从第一音频信号中获得音频特征信号，并且可以从其中组合了音频特征信号和频率特征信号的集成特征信号中输出第二音频信号。

集成特征信号可以通过用频率特征信号的样本替换音频特征信号的声道中的一些声道的样本来获得。

所述一些声道可以包括从音频特征信号的声道中的第一个声道开始的预定数量的连续声道或者从音频特征信号的声道中的最后一个声道开始的预定数量的连续声道。

音频特征信号的时间长度可以等于频率特征信号的时间长度。

在频率特征信号中，每个声道在预定时间段内的样本数可以是1。

输出音频信号可以被表示为比特流，并且频率特征信号可以被包括在所述比特流的补充区域中。

处理器可以被配置为通过组合从第二DNN输出的中间音频信号与从第一音频信号缩减的少声道音频信号来获得第二音频信号。

第一DNN可以是基于从第一训练信号转化的频域训练信号与通过用于训练的DNN从用于训练的频率特征信号重建的频域训练信号进行比较的结果来训练的，并且用于训练的频率特征信号可以是从基于第一DNN从频域训练信号中获得的。

第二DNN可以基于以下结果中的至少一个进行训练：将经由第二DNN从第一训练信号获得的第二训练信号与从第一训练信号缩减的少声道训练信号进行比较的结果，将第一训练信号与从用于训练的音频数据中重建的第四训练信号进行比较的结果，以及将用于训练的频率特征信号与从用于训练的音频数据中获得的用于训练的频率特征信号进行比较的结果。

第一DNN和第二DNN可以交替训练。

根据另一实施例，音频信号处理装置可以包括：存储一个或多个指令的存储器；以及处理器，被配置为执行存储在存储器中的一个或多个指令，其中，该处理器被配置为：通过解码输入音频信号生成包括m个声道的第三音频信号和频率特征信号，基于第三深度神经网络(DNN)从频率特征信号生成包括n(其中n>m)个声道的权重信号，以及通过将权重信号应用于经由第四DNN从第三音频信号生成的包括n个声道的中间音频信号来生成包括n个声道的第四音频信号，其中，第三音频信号包括单声道信号和立体声信号中的一个，以及第四音频信号是包括零阶信号和多个一阶信号的高阶环绕声信号。

第四DNN可以通过处理第三音频信号来获得集成特征信号，并且从集成特征信号中包括的音频特征信号中输出中间音频信号，以及频率特征信号可以是从集成特征信号中被提取，然后被输入到第三DNN。

频率特征信号可以包括从集成特征信号的声道中的第一个声道开始的预定数量的连续声道或者从最后一个声道开始的预定数量的连续声道。

第三DNN和第四DNN可以分别处理频率特征信号和音频特征信号，从而输出具有与第四音频信号相同时间长度的权重信号和中间音频信号。

处理器可以被配置为通过将中间音频信号的样本与权重信号的样本相乘来获得第四音频信号。

第三DNN和第四DNN可以基于以下结果中的至少一个进行训练：将经由第二DNN从第一训练信号获得的第二训练信号与从第一训练信号缩减的少声道训练信号进行比较的结果，将第一训练信号与经由第三DNN和第四DNN从用于训练的音频数据中重建的第四训练信号进行比较的结果，以及将经由第一DNN获得的用于训练的频率特征信号与经由第四DNN从用于训练的音频数据中获得的用于训练的频率特征信号进行比较的结果。

根据另一实施例，音频信号处理方法可以包括：对包括n(其中n是大于1的自然数)个声道的第一音频信号进行频率变换，以生成频域的第一音频信号；基于第一DNN，从频域的第一音频信号生成每个声道的频率特征信号；基于第二DNN，从第一音频信号生成包括m(其中m是小于n的自然数)个声道的第二音频信号；以及通过对第二音频信号和频率特征信号进行编码来生成输出音频信号，其中，第一音频信号是包括零阶信号和多个一阶信号的高阶环绕声信号，第二音频信号包括单声道信号和立体声信号中的一个。

根据另一实施例，音频信号处理方法可以包括：通过解码输入音频信号来产生包括m个声道的第三音频信号和频率特征信号；基于第三深度神经网络(DNN)，从频率特征信号生成包括n(其中，n>m)个声道的权重信号；以及通过将权重信号应用于经由第四DNN由第三音频信号生成的包括n个声道的中间音频信号来生成包括n个声道的第四音频信号，其中，第三音频信号包括单声道信号和立体声信号中的一个，以及第四音频信号是包括零阶信号和多个一阶信号的高阶环绕声信号。

发明方式

由于本公开允许各种变化和许多实施例，特定的实施例将在附图中示出并在书面描述中详细描述。然而，这并不旨在将本公开限制于特定实施例，并且可以理解为，所有不脱离本公开的精神和技术范围的变更、等同和替代都包含在本公开的实施例中。

在实施例的描述中，当认为相关技术的某些详细解释可能不必要地模糊了本公开的本质时，则省略了这些解释。此外，在实施例的描述中使用的数字(例如，第一、第二等)仅仅是用于将一个元素(element)与另一个元素区分开的标识符代码。

此外，在本说明书中，可以理解为，当元素彼此“连接”或“耦合”时，元素可以直接彼此连接或耦合，但是也可以通过其间的中间元素彼此连接或耦合，除非另有说明。

在本说明书中，关于表示为“-er(or)”、“单元”或“模块”的元素，根据细分的功能，两个或多个元素可以组合成一个元素，或者一个元素可以拆分成两个或多个元素。此外，下文描述的每个元素除了其自身的主要功能之外，还可以执行由另一个元素执行的部分或全部功能，并且每个元素的一些主要功能可以完全由另一个元素执行。

此外，在本说明书中，“深度神经网络(DNN)”是模拟脑神经的人工神经网络模型的代表性示例，并且不限于使用特定算法的人工神经网络模型。

此外，在本说明书中，“参数”是在形成神经网络的每一层的运算过程中使用的值，例如，可以包括当输入值被应用于特定运算表达式时使用的权重。所述参数可以用矩阵形式表示。所述参数是作为训练的结果而设置的值，并且在必要时可以通过分离的训练数据来更新。

此外，在本说明书中，“第一音频信号”指示要进行音频编码的音频，“第二音频信号”指示作为对第一音频信号执行人工智能(AI)编码的结果而获得的音频。此外，“第三音频信号”指示在音频解码过程中通过第一解码获得的音频，“第四音频信号”指示作为对第三音频信号执行AI编码的结果而获得的音频。

此外，在本说明书中，“第一DNN”指示用于获得第一音频信号的频率特征信号的DNN，“第二DNN”指示用于对第一音频信号进行AI缩减(downscale)的DNN。此外，“第三DNN”指示用于从频率特征信号获得权重信号的DNN，而“第四DNN”指示用于对第三音频信号进行AI放大(upscale)的DNN。

此外，在本说明书中，“AI缩减”指示用于减少音频声道数量的基于AI的处理，以及“第一编码”指示通过基于频率变换的音频压缩方法的编码处理。此外，“第一解码”指示通过基于频率变换的音频重建方法的解码处理，以及“AI放大”指示用于增加音频声道数量的基于AI的处理。

在下文中，将按顺序描述根据本公开的技术概念的实施例。

图1示出了根据实施例的编码和解码音频的过程。

如上所述，由于音频信号的声道数量的增加，用于编码/解码的处理信息量增加，因此需要用于提高音频信号的编码和解码效率的方案。

如图1所示，在音频编码过程中，对包括多个声道的第一音频信号105进行AI编码(110)以获得包括少量声道的第二音频信号115。第一音频信号105可以是包括W声道、X声道、Y声道和Z声道的环绕声音频，第二音频信号115可以是包括左(L)声道和右(R)声道的立体声音频或包括1声道的单声道音频。在实施例中，第一音频信号105可以是5声道音频、6声道音频、9声道音频等具有1个以上声道的音频。在本公开中，诸如第一音频信号105和第四音频信号145等具有大量声道的音频信号可以被称为多声道音频信号，并且诸如第二音频信号115和第三音频信号135等具有少量声道的音频信号可以被称为少声道音频信号。少声道音频信号的声道数量可以小于多声道音频信号中包括的声道数量。

在本公开中，对与第一音频信号105相比具有较少声道的第二音频信号115执行第一编码(120)和第一解码(130)，使得即使通过使用不支持多声道音频信号的编码/解码的编码解码器，也可以对第一音频信号105进行编码/解码。

参照图1详细描述，在音频编码过程中，对包括n个声道的第一音频信号105进行AI编码(110)以获得包括m个声道的第二音频信号115，并且对第二音频信号115进行第一编码(120)。在实施例中，n和m是自然数，其中m小于n。在另一实施例中，n和m可以是有理数。

在音频解码过程中，接收作为AI编码(110)的结果获得的音频数据，通过第一解码(130)获得具有m个声道的第三音频信号135，并且通过对第三音频信号135进行AI解码(140)获得具有n个声道的第四音频信号145。

在AI编码(110)的过程中，当输入第一音频信号105时，对第一音频信号105进行AI缩减以获得具有较少声道的第二音频信号115。在AI解码(140)的过程中，当输入第三音频信号135时，对第三音频信号135进行AI放大以获得第四音频信号145。也就是说，由于第一音频信号105的声道数量通过AI编码(110)减少，以及第三音频信号135的声道数量通过AI解码(140)增加，因此需要最小化由于声道数量的改变而导致的第一音频信号105和第四音频信号145之间的差异。

在本公开的实施例中，使用频率特征信号来补偿在AI编码(110)过程和AI解码(140)过程中发生的声道数量的变化。频率特征信号表示第一音频信号105的声道之间的相关性，并且在AI解码(140)过程中，可以基于频率特征信号重建与第一音频信号105相同/相似的第四音频信号145。

用于AI编码(110)和AI解码(140)的AI可以作为DNN实现。如下文将参照图12所描述的，用于AI编码(110)和AI解码(140)的DNN通过共享损失信息进行联合训练，可以最小化第一音频信号105和第四音频信号145之间的差异。

详细描述图1所示的第一编码(120)和第一解码(130)，可以通过第一编码(120)减少从第一音频信号105AI缩减的第二音频信号115的信息量。第一编码(120)可以包括将第二音频信号115变换到频域的过程、将已经变换到频域的信号量化的过程、对量化信号进行熵编码的过程等。第一编码(120)的过程可以通过使用基于使用高级音频编码(AAD)标准、OPUS标准等的频率变换的音频信号压缩方法之一来实现。

与第二音频信号115相对应的第三音频信号135可以通过音频数据的第一解码(130)来重建。第一解码(130)可以包括通过对音频数据进行熵解码生成量化信号的过程、对量化信号进行逆量化的过程、以及将频域信号变换为时域信号的过程。第一解码(130)的过程可以通过使用与基于使用AAC标准、OPUS标准等的频率变换的音频信号压缩方法相对应的音频信号重建方法之一来实现，并且在第一编码(120)的过程中使用。

通过音频编码过程获得的音频数据可以包括频率特征信号。如上所述，利用频率特征信号重建与第一音频信号105相同/相似的第四音频信号145。

音频数据可以以比特流的形式发送。所述音频数据可以包括基于第二音频信号115中的样本值获得的数据，例如，第二音频信号115的量化样本值。此外，音频数据可以包括第一编码(120)过程中使用的多条信息，例如，预测模式信息、量化参数信息等。可以根据音频信号压缩方法的规则，例如语法，来生成音频数据，所述音频信号压缩方法使用AAD标准、OPUS标准等基于频率变换的音频信号压缩方法。

图2示出了根据实施例的编码装置200(或音频编码装置)的配置的框图。

参照图2，根据实施例的编码装置200可以包括AI编码器210和第一编码器230。AI编码器210可以包括变换器212、特征提取器214和AI缩减器216。如图2所示，根据实施例的编码装置200还可以包括传统缩减器250。

虽然图2将AI编码器210、第一编码器230和传统缩减器250示为单独的元件，但是AI编码器210、第一编码器230和传统缩减器250可以由一个处理器来实现。在这种情况下，它们可以作为专用处理器实现，或者可以作为软件和诸如应用处理器(AP)、中央处理器(CPU)或图形处理器(GPU)的通用处理器的组合实现。所述专用处理器可以包括用于实现本公开的实施例的存储器，或者可以包括用于使用外部存储器的存储处理器。

AI编码器210、第一编码器230和传统缩减器250可以由多个处理器配置。在这种情况下，它们可以实现为专用处理器的组合或者软件和诸如AP、CPU或GPU的多个通用处理器的组合。变换器212、特征提取器214和AI缩减器216可以由不同的处理器实现。

AI编码器210从包括n个声道的第一音频信号105获得频率特征信号和包括m个声道的第二音频信号115。在实施例中，n和m是自然数，其中m小于n。在另一实施例中，n和m可以是有理数。

第一音频信号105可以是包括n个声道的高阶环绕声信号。更详细地，第一音频信号105可以是包括零阶信号和多个一阶信号的高阶环绕声信号。现在将参照图3描述高阶环绕声信号。

图3示出了包括在高阶环绕声信号中的信号的示例。

高阶环绕声信号可以包括对应于W声道的零阶信号、对应于X声道、Y声道和Z声道的一阶信号以及对应于R声道、S声道等的二阶信号。虽然在图3中未示出，但是高阶环绕声信号还可以包括三阶信号、四阶信号等。

在实施例中，第一音频信号105可以包括对应于W声道的零阶信号，以及比零阶信号更高阶的信号(例如，对应于X声道、Y声道和Z声道的一阶信号)。在实施例中，第一音频信号105可以包括一阶信号和比一阶信号更高阶的信号。

在实施例中，第二音频信号115可以是立体声信号和单声道信号中的一个。

参照图2，第二音频信号115可以输出到第一编码器230，以及频率特征信号可以从特征提取器214输出到AI缩减器216或第一编码器230。

所述AI编码器210可以基于AI获得频率特征信号和第二音频信号115。这里，AI可以指示由DNN进行的处理。详细地，AI编码器210可以通过使用第一DNN获得频率特征信号，并可以通过使用第二DNN获得第二音频信号115。

所述AI编码器210执行AI缩减以减少第一音频信号105的声道数量，并获得指示第一音频信号105的每个声道的特征的频率特征信号。第二音频信号115和频率特征信号可以通过预定处理被发送(signal)到解码装置900(或音频解码装置)，并且解码装置900可以通过使用频率特征信号来重建与第一音频信号105相同/相似的第四音频信号145。

详细描述AI编码器210，所述变换器212将第一音频信号105从时域变换到频域，从而获得频域的第一音频信号。变换器212可以根据包括短时傅立叶变换(STFT)等各种变换方法，将第一音频信号105变换成频域的第一音频信号。

第一音频信号105包括根据声道和时间识别的样本，并且频域的第一音频信号包括根据声道、时间和频率段(frequency bin)识别的样本。这里，频率段指示频率索引，该频率索引指示每个样本的值对应的频率(或频带)。

特征提取器214通过第一DNN从频域的第一音频信号中获得频率特征信号。如上所述，频率特征信号指示第一音频信号105的声道之间的相关性，并且下面将要描述的解码装置900可以通过使用频率特征信号来获得与第一音频信号105相同/相似的第四音频信号145。

特征提取器214获得比频域的第一音频信号具有更少样本数量的频率特征信号。获得频率特征信号的原因是为了补偿由于根据AI缩减的声道数量的改变而导致的信号损失，以便于第一编码器230进行编码，并减少音频数据的比特数。第一音频信号105的声道之间的相关性可以从频域的第一音频信号中检测，但是因为频域的第一音频信号像第一音频信号105一样具有n个声道，频域的第一音频信号不是被第一编码，而是由于其较大的尺寸而增加了音频数据的比特数。因此，根据实施例的特征提取器214可以获得具有比频域的第一音频信号的样本数量更少的频率特征信号，从而可以同时减少音频数据的比特数并将第一音频信号105的声道之间的相关性信号发送给解码装置900。

AI缩减器216通过第二DNN处理第一音频信号105来获得第二音频信号115。第二音频信号115的声道数量可以小于第一音频信号105的声道数量。如上所述，第一编码器230不支持第一音频信号105的编码，但是可以支持第二音频信号115的编码。

在实施例中，第一音频信号105可以是4声道环绕声音频，第二音频信号115可以是立体声音频，但是第一音频信号105和第二音频信号115的声道数量不限于分别为4声道和2声道。

当由特征提取器214获得的频率特征信号被输出到AI缩减器216时，AI缩减器216在通过第二DNN处理第一音频信号105期间嵌入频率特征信号。下面将参照图6至图8描述嵌入频率特征信号的过程。

第一编码器230可以对从AI缩减器216输出的第二音频信号115进行第一编码，从而可以减少第二音频信号115的信息量。作为第一编码器230的第一编码的结果，可以获得音频数据。音频数据可以以比特流的形式表示，并且可以通过网络发送到解码装置900。音频数据可以作为输出音频信号的参考。

当频率特征信号从特征提取器214输出到第一编码器230时，第一编码器230对第二音频信号115和频率特征信号进行第一编码。在实施例中，频率特征信号可以像第一音频信号105一样具有n个声道，从而可以被包括在对应于音频数据的比特流的补充区域中，而不是基于频率变换的编码方法。例如，频率特征信号可以被包括在音频数据的有效载荷区域或用户定义区域中。

如图2所示，编码装置200还可以包括传统缩减器250，传统缩减器250通过缩减第一音频信号105来获得少声道音频信号。例如，少声道音频信号可以像第二音频信号115一样具有m个声道。

所述少声道音频信号可以组合到从AI缩减器216输出的音频信号，并且作为组合的结果获得的第二音频信号115可以被输入到第一编码器230。

在实施例中，传统缩减器250可以通过使用用于减少第一音频信号105的声道数量的各种算法中的至少一种算法来获得少声道音频信号。

例如，当第一音频信号105是包括W声道信号、X声道信号、Y声道信号和Z声道信号的4声道音频时，可以W声道信号、X声道信号、Y声道信号和Z声道信号中的两个或多个信号可以被组合以获得少声道音频信号。这里，W声道信号可以指示所有方向上的声源的强度之和，X声道信号可以指示前后声源的强度之差，Y声道信号可以指示左右声源的强度之差，Z声道信号可以指示上下声源的强度之差。当第二音频信号115是立体声音频时，传统缩减器250可以获得通过从W声道信号中减去Y声道信号而获得的信号作为左(L)信号，并且可以获得通过将W声道信号和Y声道信号相加而获得的信号作为右(R)信号。另一个示例是，传统缩减器250可以通过UHJ编码获得少声道音频信号。

所述少声道音频信号对应于第二音频信号115的预测版本，并且从AI缩减器216输出的音频信号对应于第二音频信号115的残差版本。也就是说，与第二音频信号115的预测版本相对应的少声道音频信号以跳连接的形式与从AI缩减器216输出的音频信号进行组合，从而可以减少第二DNN的层数。

在下文中，将参照图4至图8描述用于提取频率特征信号的第一DNN和用于对第一音频信号105进行AI缩减处理的第二DNN。

图4示出了根据实施例的第一DNN 400。

第一DNN 400可以包括至少一个卷积层和至少一个整形层。

卷积层通过具有预定大小的滤波器处理输入数据来获得特征数据。卷积层滤波器的参数可以通过下面将要描述的训练过程来优化。

整形层通过改变输入数据的样本位置来改变输入数据的大小。

参照图4，频域的第一音频信号107输入到第一DNN 400。频域的第一音频信号107包括根据声道、时间和频率段识别的样本。也就是说，频域的第一音频信号107可以是样本的三维数据。频域的第一音频信号107的每个样本可以是作为频率变换的结果而获得的频率系数。

图4示出了频域的第一音频信号107的大小是(32，4，512)，这意味着频域的第一音频信号107的时间长度是32，声道的数量是4，频率段的数量是512。32作为时间长度意味着帧的数量是32，并且每个帧对应于一个预定的时间段(例如，5ms)。所述频域的第一音频信号107的大小为(32，4，512)仅仅是一个示例，根据实施例，所述频域的第一音频信号107的大小或每层的输入/输出信号的大小可以不同地改变。

第一卷积层410通过滤波器处理频域的第一音频信号107，每个滤波器大小为3×1。作为第一卷积层410的处理结果，可以获得大小为(32，4，a)的特征信号415。

第二卷积层420通过b个滤波器处理输入信号，每个滤波器大小为3×1。作为第二卷积层420的处理结果，可以获得大小为(32，4，b)的特征信号425。

第三卷积层430通过4个滤波器处理输入信号，每个滤波器大小为3×1。作为第三卷积层430的处理结果，可以获得大小为(32，4，4)的特征信号435。

整形层440通过改变大小为(32，4，4)的特征信号435来获得大小为(128，4)的频率特征信号109。整形层440可以通过在时间轴方向上将大小为(32，4，4)的特征信号435的样本中由第二频率段识别的样本移动到第四频率段来获得大小为(128，4)的频率特征信号109。

根据本公开实施例的第一DNN 400获得具有与频域的第一音频信号107相同数量的声道的频率特征信号109，但是，在预定时间段内，其每个声道的样本数量小于频域的第一音频信号107。虽然图4示出了第一DNN 400包括3个卷积层和1个整形层，但是这仅仅是一个示例，只要可以获得频率特征信号109，其中其声道数量等于频域的第一音频信号107，并且其样本数量小于频域的第一音频信号107，那么第一DNN 400中包括的卷积层和整形层的数量可以变化。同样，可以用卷积层替换整形层，并且每个卷积层中使用的滤波器的数量和大小可以不同。

图5示出了频域的第一音频信号107和图4所示的频率特征信号109之间的比较。

频域的第一音频信号107的每个样本根据帧(即，时间)、频率段和声道来识别。参照图5，在第一帧期间，第一个声道存在k个样本。

与频域的第一音频信号107相比，频率特征信号109在预定时间段内具有每个声道的少量样本。例如，在预定时间段内，每个声道的样本数量可以为1。如图5所示，在第一帧期间包括在第一声道中的样本数量可以为1。

频率特征信号109的样本可以是预定时间段内特定声道的多个频带的代表值。例如，在第一帧期间的第四声道的代表值，即样本值0.5可以是第一帧期间与第一频率段至第k频率段对应的频带的代表值。

如上所述，频率特征信号109可以指示第一音频信号105的声道之间的相关性，特别是可以指示第一音频信号105的声道之间在频域中的相关性。例如，频率特征信号109的第一帧期间的第三声道的样本值为0可能意味着频域的第一音频信号107的第一帧期间的第三声道信号的样本，即频率系数可能为0。此外，在频率特征信号109的第一帧期间，第一声道的样本值是0.5，第二声道的样本值是0.2，这可能意味着在频域的第一音频信号107的第一帧期间，第一声道信号中的非零频率分量，即非零频率系数可能大于第二声道信号。

根据本公开的实施例，通过使用与频域的第一音频信号107相比具有较少样本数的频率特征信号109，向解码装置900发送声道之间的相关性信号，从而与使用频域的第一音频信号107的情况相比，可以减少音频数据的比特数。

图6示出了根据实施例的第二DNN 600。

第二DNN 600包括至少一个卷积层和至少一个整形层。

与第一DNN 400的二维卷积层不同，第二DNN 600中包括的至少一个卷积层可以是一维卷积层。对于卷积处理，一维卷积层的滤波器仅根据步幅(stride)在水平方向或垂直方向上移动，但是二维卷积层的滤波器根据步幅在水平和垂直方向上移动。

参照图6，第一音频信号105输入到第二DNN 600。第一音频信号105的样本由时间和声道识别。也就是说，第一音频信号105可以是二维数据。

第一卷积层610通过滤波器对第一音频信号105进行卷积处理，每个滤波器的大小为33。第一卷积层610的滤波器的尺寸为33可能意味着滤波器的水平大小为33，并且其垂直大小等于输入信号的垂直大小，即第一音频信号105的垂直大小(声道的数量)。作为第一卷积层610的处理结果，输出大小为(128，a)的特征信号615。

第二卷积层620接收第一卷积层610的输出信号的输入，然后通过b个滤波器处理输入信号，每个滤波器的大小为33。作为处理的结果，可以获得大小为(128，b)的音频特征信号625。根据下面将要描述的频率特征信号109的组合方案，音频特征信号625的大小可以是(128，b-4)。

所述频率特征信号109可以在第二DNN 600相对于第一音频信号105的处理过程中嵌入，如图6所示，频率特征信号109可以与音频特征信号625组合，并且作为组合的结果获得的集成特征信号628可以被输入到下一层。

现在将参照图7和图8描述组合频率特征信号109与音频特征信号625的方法。

图7和图8示出了组合音频特征信号625与频率特征信号109的方法。

参照图7，音频特征信号625的预定数量的声道(图7中的4个)的样本可以用频率特征信号109的样本来替换。所述要被替换的音频特征信号625的声道可以包括从音频特征信号625的声道中的第一个声道开始的预定数量的连续声道或者从最后一个声道开始的预定数量的连续声道。例如，当频率特征信号109具有4个声道时，音频特征信号625的第一声道至第四声道的样本被频率特征信号109的样本替换，从而可以获得集成特征信号628。

接下来，参照图8，可以将频率特征信号109加入到音频特征信号625。也就是说，当音频特征信号625具有b-4个声道并且频率特征信号109具有4个声道时，可以将频率特征信号109加入到音频特征信号625中，以便获得具有b个声道的集成特征信号628。所述频率特征信号109可以加入到音频特征信号625的第一声道的前面，或者可以加入到音频特征信号625的最后一个声道的后面。

在图7和图8中，组合频率特征信号109与音频特征信号625的前端或后端的原因是为了解码装置900容易地将频率特征信号从集成特征信号中分离。

参照回图6，集成特征信号628输入到整形层630。大小为(128，b)的集成特征信号628可以通过整形层630被改变为大小为(16384，2)的特征信号635。

整形层630的输出信号635输入到第三卷积层640。第三卷积层640通过对卷积处理两个滤波器输入的信号，获得大小为(16384，2)的第二音频信号115，每个滤波器的大小为1。第二音频信号115的大小为(16384，2)意味着第二音频信号115是一个具有2个声道的16384帧的立体声信号。根据实施例，当第二音频信号115为单声道信号时，第二音频信号115的大小可以是(16384，1)。

根据实施例的第二DNN 600输出第二音频信号115，该第二音频信号115具有与第一音频信号105相同的时间长度，并且具有比第一音频信号105更少的声道数量。假设第二DNN 600可以输出这样的第二音频信号115，则第二DNN 600可以具有除了图6所示的结构之外的各种结构。换句话说，虽然图6示出了第二DNN 600包括3个卷积层和1个整形层，但这仅仅是一个示例，因此，包括在第二DNN 600中的卷积层和整形层的数量可以变化，只要可获得具有与第一音频信号105相同的时间长度并且具有比第一音频信号105更少的声道数量的第二音频信号115。同样，可以用卷积层替换整形层，并且每个卷积层中使用的滤波器的数量和大小可以不同。

所述编码装置200可以通过网络将通过AI编码和第一编码获得的音频数据发送到解码装置900。根据实施例，音频数据可以存储在数据存储介质中，数据存储介质包括诸如硬盘、软盘或磁带的磁介质，诸如光盘只读存储器(CD-ROM)或数字多功能盘(DVD)的光记录介质，或者诸如光盘的磁光介质。

图9示出了根据实施例的音频解码装置900的配置的框图。

参照图9，解码装置900包括第一解码器910和AI解码器930。AI解码器930可以包括权重信号获取器912、AI放大器914和组合器916。

虽然图9将第一解码器910和AI解码器930示为单独的元件，但是第一解码器910和AI解码器930可以由一个处理器实现。在这种情况下，它们可以作为专用处理器实现，或者可以作为软件和诸如AP、CPU或GPU的通用处理器的组合实现。所述专用处理器可以包括用于实现本公开的实施例的存储器，或者可以包括用于使用外部存储器的存储处理器。

第一解码器910和AI解码器930可以由多个处理器配置。在这种情况下，它们可以作为专用处理器的组合或者软件和诸如AP、CPU或GPU的多个通用处理器的组合实现。权重信号获取器912、AI放大器914和组合器916可以由不同的处理器实现。

第一解码器910获得音频数据。由第一解码器910获得的音频数据可以作为输入音频信号参考。音频数据可以通过网络接收，或者可以从数据存储介质获得，所述数据存储介质包括诸如硬盘、软盘或磁带之类的磁介质，诸如CD-ROM或DVD之类的光记录介质，或者诸如光盘之类的磁光介质。

第一解码器910对音频数据进行第一编码。第三音频信号135是作为相对于音频数据的第一编码的结果而获得的，并且第三音频信号135被输出到AI放大器914。第三音频信号135可以包括m个声道作为第二音频信号115。

如上所述，当频率特征信号被包括在音频数据的补充区域中时，频率特征信号通过相对于音频数据的第一编码来重建。当频率特征信号被嵌入在第三音频信号135中时，该频率特征信号可以通过AI放大器914的第四DNN的处理来获得。

AI解码器930基于第三音频信号135和频率特征信号重建包括n个声道的第四音频信号145。

由于AI缩减导致的声道改变引起的信号损失不能仅通过对第三音频信号135进行AI放大获得的第四音频信号145来补偿，因此AI解码器930根据实施例，从频率特征信号获得用于补偿信号损失的权重信号。

详细地，权重信号获取器912通过第三DNN对具有n个声道的频率特征信号进行处理来获得具有n个声道的权重信号。权重信号的时间长度可以等于由AI放大器914获得的中间音频信号的时间长度，并且可以大于频率特征信号的时间长度。权重信号中包括的样本值是将分别应用于由AI放大器914获得的中间音频信号的样本的权重，并且用于反映第一音频信号105的声道之间相对于中间音频信号的每个声道的样本值的相关性。

现在将参照图10描述权重信号获取器912的第三DNN。

图10示出了根据实施例的第三DNN 1000。

参照图10，第三DNN 1000可以包括至少一个卷积层和至少一个整形层。第三DNN1000中包括的卷积层可以是二维卷积层。

频率特征信号136输入到第三DNN 1000，并且通过第三DNN 1000中的处理过程获得权重信号137。

如图10所示，频率特征信号136的大小为(128，4)，这意味着频率特征信号136有4个声道的128帧。

第一卷积层1010通过滤波器处理频率特征信号136来获得大小为(128，4，a)的特征信号1015，每个滤波器的大小为3×1。

第二卷积层1020通过b个滤波器处理输入信号来获得大小为(128，4，b)的特征信号1025，每个滤波器的大小为3×1。

第三卷积层1030通过128个滤波器处理输入信号来获得大小为(128，4，128)的特征信号1035，每个滤波器的大小为3×1。

整形层1040通过改变大小为(128，4，128)的特征信号1035中样本的位置来获得大小为(16384，4)的权重信号137。例如，整形层1040可以通过在时间轴上从大小为(128，4，128)的特征信号1035中的样本中将第二频率带的样本移动到第128频率带来获得大小为(16384，4)的权重信号137。

根据实施例的第三DNN 1000获得权重信号137，该权重信号137具有与从AI放大器914输出的中间音频信号相同的时间长度和声道。因此，假设第三DNN 1000可以输出这种权重信号137，那么第三DNN 1000可以具有除了图10所示的结构之外的各种结构。换句话说，虽然图10示出了第三DNN 1000包括3个卷积层和1个整形层，但这仅仅是一个示例，因此，包括在第三DNN 1000中的卷积层和整形层的数量可以变化，只要可以获得具有与中间音频信号相同的时间长度和声道的权重信号137。同样，可以用卷积层替换整形层，并且每个卷积层中使用的滤波器的数量和大小可以不同。

在上述情况下，第一个DNN 400相对于由第一音频信号105变换后的频域第一音频信号107获得频率特征信号109，而权重信号获取器912不将频率特征信号136或权重信号137逆变换到时域。这是为了防止由于服务器-客户端结构中的逆变换而导致的延迟。换句话说，对于以流的方式从服务器接收音频信号的客户终端的快速内容消耗，终止了由于逆变换导致的延迟。

接下来，现在将参照图11描述AI放大器914的第四DNN。

图11示出了根据实施例的第四DNN 1100。

参照图11，第四DNN 1100可以包括至少一个卷积层和至少一个整形层。第四DNN1100中包括的卷积层可以是一维卷积层。

第三音频信号135输入到第四DNN 1100，并且通过第四DNN 1100中的处理过程AI放大为中间音频信号138。

如图11所示，第三音频信号135的大小为(16384，2)，这意味着第三音频信号135具有2个声道的16384帧。

第一卷积层1110通过a个滤波器处理第三输入信号135来获得大小为(4096，a)的特征信号1115，每个滤波器的大小为33。

第二卷积层1120通过b个滤波器处理输入信号来获得大小为(128，b)的集成特征信号1128，每个滤波器的大小为33。在下面将要描述的训练过程中，第四DNN 1100可以被训练为通过第二卷积层1120输出集成特征信号1128，该集成特征信号1128与第二DNN 600相对于第一音频信号105的处理过程中获得的集成特征信号628相同/相似。

当频率特征信号136被嵌入在第三音频信号135中时，频率特征信号136被从集成特征信号1128中提取。更详细地，可以从集成特征信号1128的声道中提取从第一个声道开始的预定数量的连续声道的样本或者从最后一个声道开始的预定数量的连续声道的样本作为频率特征信号136。如上所述，频率特征信号136被发送到权重信号获取器912。

第三卷积层1130通过c个滤波器处理输入信号(例如，从集成特征信号1128中分离出的音频特征信号1125)来获得大小为(256，c)的特征信号1135，每个滤波器的大小为33。

整形层通过改变大小为(256，c)的特征信号1135中样本的位置来输出大小为(16384，4)的中间音频信号138。

根据实施例的第四DNN 1100获得具有与第一音频信号105相同时间长度和声道数量的中间音频信号138。因此，假设第四DNN 1100可以输出这样的中间音频信号138，那么第四DNN 1100可以具有除了图11所示的结构之外的各种结构。换句话说，虽然图11示出了第四DNN 1100包括3个卷积层和1个整形层，但这仅仅是一个示例，因此，包括在第四DNN 1100中的卷积层和整形层的数量可以变化，只要可以获得具有与第一音频信号105相同时间长度和声道数量的中间音频信号138。同样，可以用卷积层替换整形层，并且每个卷积层中使用的滤波器的数量和大小可以不同。

参照图9，由权重信号获取器912输出的权重信号和由AI缩减器914输出的中间音频信号可以被输入到组合器916，并且组合器916可以通过将权重信号的样本应用到中间音频信号的样本来获得第四音频信号145。例如，组合器916可以通过以1∶1的方式将中间音频信号的样本值乘以权重信号的相应样本值来获得第四音频信号145。

与图9所示的解码装置900不同，不能执行AI解码的传统解码装置可以通过第一解码音频数据来获得第三音频信号135。传统解码装置可以通过扬声器输出第三音频信号135进行再现。也就是说，根据实施例，作为相对于第二音频信号115的第一编码的结果而获得的音频数据可能具有较低兼容性，该兼容性可用于能够执行AI解码的解码装置900和不能执行AI解码的传统解码装置。

在下文中，参照图12至图17，现在将描述训练第一DNN 400、第二DNN 600、第三DNN1000和第四DNN 1100的方法。

图12示出了训练第一DNN 400、第二DNN 600、第三DNN 1000和第四DNN 1100的方法。

图12示出了训练第二DNN 600以在第二音频信号115中嵌入频率特征信号的方法。

图12中的第一训练信号1201对应于第一音频信号105，第二训练信号1205对应于第二音频信号115。此外，第三训练信号1206对应于第三音频信号135，第四训练信号1210对应于第四音频信号145。

通过对第一训练信号1201进行频率变换(1220)获得频域训练信号1202，并且频域训练信号1202被输入到第一DNN 400。第一DNN 400根据预设参数对频域训练信号1202进行处理，获得用于训练的频率特征信号1203。用于训练的频率特征信号1203和第一训练信号1201被输入到第二DNN 600，第二DNN 600通过预设参数获得嵌入用于训练的频率特征信号1203的第二训练信号1205。

通过第一编码和第一解码(1250)，第二训练信号1205被改变为第三训练信号1206。更详细地，用于训练的音频数据是通过相对于第二训练信号1205的第一编码获得的，而第三训练信号1206是通过相对于用于训练的音频数据的第一解码获得的。第三训练信号1206被输入到第四DNN 1100。第四DNN 1100通过预设参数从第三训练信号1206获得用于训练的频率特征信号1207和用于训练的中间音频信号1209。第三DNN 1000通过预设参数对用于训练的频率特征信号1207进行处理来获得用于训练的权重信号1208。通过组合用于训练的权重信号1208与用于训练的中间音频信号1209来获得第四训练信号1210。

在图12中，由第一DNN 400获得的用于训练的频率特征信号1203被输入到用于训练的DNN 1240，所述用于训练的DNN 1240是用于验证第一DNN 400是否准确生成了用于训练的频率特征信号1203的DNN。用于训练的DNN 1240可以具有第一DNN 400的镜像结构。用于训练的DNN 1240通过处理用于训练的频率特征信号1203来重建频域训练信号1204。

生成损失信息(LossDG)1260是通过频率变换(1220)获得的频域训练信号(1202)与通过用于训练的DNN 1240获得的频域训练信号1204之间的比较结果。生成损失信息(LossDG)1260可以包括通过频率变换(1220)获得的频域训练信号1202和通过用于训练的DNN获得的频域训练信号1204之间的L1范数值、L2范数值、结构相似性(SSIM)值、峰值信噪比-人类视觉系统(PSNR-HVS)值、多尺度SSIM(MS-SSIM)值、方差膨胀因子(VIF)值和视频多方法评估融合(VMAF)值中的至少一个。例如，生成损失信息1260可以表示为下面的公式1。

公式1

LossDG＝||F(A_nch)-D(CE_mbed)||₂ ²

在公式1中，F()指示频率变换(1220)，A_nch指示第一训练信号1201。D()指示用于训练的DNN 1240，C_Embed指示用于训练的频率特征信号1203。

生成损失信息1260指示通过用于训练的DNN 1240对用于训练的频率特征信号1203进行处理获得的频域训练信号1204与通过频率变换(1220)获得的频域训练信号1202相似的程度。

第一训练信号1201通过传统缩减1230改变为少声道训练信号，并且作为少声道训练信号和第二训练信号1205之间比较的结果获得缩减损失信息(LossDown)1270。所述缩减损失信息(LossDown)1270可以包括少声道训练信号和第二训练信号1205之间的L1范数值、L2范数值、SSIM值、PSNR-HVS值、MS-SSIM值、VIF值和VMAF值中的至少一个。例如，缩减损失信息1270可以表示为下面的公式2。

公式2

LossDown＝(1-β)·||S_mch-S_Label||₂ ²+β·||F(S_mch)-F(S_label)||₂ ²

在公式2中，β是预定的权重，S_mch是第二训练信号1205，以及S_Label指示少声道训练信号。F()指示频率变换。

缩减损失信息1270指示嵌入用于训练的频率特征信号1203的第二训练信号1205与通过传统缩减1230获得的少声道训练信号相似的程度。由于第二训练信号1205更类似于少声道训练信号，可以提高第三训练信号1206的质量。尤其地，可以提高由传统解码装置重建的信号的质量。

根据第一训练信号1201和第四训练信号1210之间的比较结果，获得放大损失信息(LossUp)1280。所述放大损失信息(LossUp)1280可以包括第一训练信号1201和第四训练信号1210之间的L1范数值、L2范数值、SSIM值、PSNR-HVS值、MS-SSIM值、VIF值和VMAF值中的至少一个。例如，放大损失信息1280可以表示为下面的公式3。

公式3

LossUp＝(1-β)·||A_Pnch-A_nch||₂ ²+β·||F(A_Pnch)-F(A_nch)||₂ ²

在公式3中，β是预定权重，A_nch表示第一训练信号1201，A_pnch指示第四训练信号1210。F()指示频率变换。

放大损失信息1280指示生成用于训练的权重信号1208和用于训练的中间音频信号1209的准确度。

根据第一DNN 400输出的用于训练的频率特征信号1203和第四DNN 1100提取的用于训练的频率特征信号1207之间的比较结果，获得匹配损失信息(LossM)1290。匹配损失信息(LossM)1290可以包括两个用于训练的频率特征信号1203和1207之间的L1范数值、L2范数值、SSIM值、PSNR-HVS值、MS-SSIM值、VIF值和VMAF值中的至少一个。例如，匹配损失信息1290可以表示为下面的公式4。

公式4

LossM＝||C_Embed-C_Extract||₂ ²

在公式4中，C_Embed指示嵌入在第二训练信号1205中的用于训练的频率特征信号1203，C_Extract指示由第四DNN 1100提取的用于训练的频率特征信号1207。

匹配损失信息1290指示由第四DNN 1100中间输出的集成特征信号与由第二DNN600获得的集成特征信号相似的程度。当第四DNN 1100输出的集成特征信号与第二DNN 600获得的集成特征信号相似时，其两个频率特征信号也相似。

第一DNN 400、第二DNN 600、第三DNN 1000和第四DNN 1100可以更新参数，以减小或最小化通过组合生成损失信息1260、缩减损失信息1270、放大损失信息1280和匹配损失信息1290中的至少一个获得的最终损失信息。

详细地，第一DNN 400和用于训练的DNN 1240可以更新参数以减少或最小化生成损失信息1260。此外，第二DNN 600、第三DNN 1000和第四DNN 1100可以各自更新参数以减小或最小化作为缩减损失信息1270、放大损失信息1280和匹配损失信息1290的组合的结果而获得的最终损失信息。

第一DNN 400和用于训练的DNN 1240的训练公式如下。

公式5

在公式5中，ω_Phase1指示第一DNN 400和用于训练的DNN 1240的参数集。第一DNN400和用于训练的DNN 1240通过训练获得参数集，以最小化生成损失信息(LossDG)1260。

第二DNN 600、第三DNN 1000和第四DNN 1100的训练公式如下。

公式6

在公式6中，ω_Phase2指示第二DNN 600、第三DNN 1000和第四DNN 1100的参数集，α和γ指示预设权重。第二DNN 600、第三DNN 1000和第四DNN 1100通过训练获得参数集以最小化最终损失信息，该最终损失信息是根据预设权重的缩减损失信息(LossDown)1270、放大损失信息(LossUp)1280和匹配损失信息(LossM)1290的组合。

在实施例中，可以交替进行第一DNN 400和用于训练的DNN 1240的训练以及第二DNN 600、第三DNN 1000和第四DNN 1100的训练。更详细地，第一DNN 400和用于训练的DNN1240根据初始设置的参数对输入信号进行处理，然后根据生成损失信息1260更新参数。然后，第一DNN 400和用于训练的DNN 1240根据更新的参数对输入信号进行处理，第二DNN600、第三DNN 1000和第四DNN 1100根据初始设置的参数对输入信号进行处理。第二DNN600、第三DNN 1000和第四DNN 1100各自根据作为处理损失输入信号的结果而获得的匹配损失信息1290、放大损耗信息1280和缩减损耗信息1270中的至少一个来更新参数。当第二DNN 600、第三DNN 1000和第四DNN 1100的参数更新完成时，第一DNN 400和用于训练的DNN1240再次更新参数。也就是说，根据实施例，交替进行第一DNN 400和用于训练的DNN 1240的训练以及第二DNN 600、第三DNN 1000和第四DNN 1100的训练，使得每个DNN的参数可以被稳定地训练到更高的精度水平。

图13和图14示出了用于描述由训练装置1300训练第一DNN 400、第二DNN 600、第三DNN 1000和第四DNN 1100的过程的流程图。

参照图12描述的第一DNN 400、用于训练的DNN 1240、第二DNN 600、第三DNN 1000和第四DNN 1100的训练可以由训练装置1300执行。训练装置1300可以包括第一DNN 400、用于训练的DNN 1240、第二DNN 600、第三DNN 1000和第四DNN 1100。例如，训练装置1300可以是音频编码装置200或单独的服务器。作为训练的结果获得的第三DNN 1000和第四DNN1100可以被存储在音频解码装置900中。

训练装置1300初始设置第一DNN 400、用于训练的DNN 1240、第二DNN 600、第三DNN 1000和第四DNN 1100的参数(S1310)。

训练装置1300将通过频率变换(1220)从第一训练信号1201获得的频域训练信号1202输入到第一DNN 400(S1320)。第一DNN 400将用于训练的频率特征信号1203输出到用于训练的DNN 1240(S1330)，并且用于训练的DNN 1240将重建的频域训练信号1204输出到训练装置1300(S1340)。

训练装置1300将通过频率变换(1220)获得的频域训练信号1202与从用于训练的DNN 1240输出的频域训练信号1204进行比较，从而计算生成损失信息1260(S1350)。然后，第一DNN 400和用于训练的DNN 1240各自根据生成损失信息1260更新参数(S1360和S1370)。

训练装置1300将通过频率变换(1220)从第一训练信号1201获得的频域训练信号1202输入回第一DNN 400(S1380)。第一DNN 400通过更新的参数处理频域训练信号1202，从而将用于训练的频率特征信号1203输出到训练装置1300和第二DNN 600(S1390)。

接下来，在图14中，训练装置1300将第一训练信号1201输入到第二DNN 600(S1410)，并且第二DNN 600通过处理用于训练的频率特征信号1203和第一训练信号1201将第二训练信号1205输出到训练装置1300(S1420)。

训练装置1300根据第二训练信号1205和从第一训练信号1201传统缩减(1230)的少声道训练信号之间的比较结果，获得缩减损失信息1270(S1430)。

训练装置1300将通过对第二训练信号1205的第一编码和第一解码(1250)获得的第三训练信号1206输入到第四DNN 1100(S1440)，第四DNN 1100将用于训练的频率特征信号1207输出到第三DNN 1000和训练装置1300(S1450)。

训练装置1300将在操作S1390中由第一DNN 400输出的用于训练的频率特征信号1203与由第四DNN 1100输出的用于训练的频率特征信号1207进行比较，从而计算匹配损失信息1290(S1460)。

第四DNN 1100通过对第三训练信号1206进行处理输出用于训练的中间音频信号1209(S1470)，第三DNN 1000通过对用于训练的频率特征信号1207进行处理输出用于训练的权重信号1208(S1480)。

训练装置1300通过组合用于训练的中间音频信号1209和用于训练的权重信号1208来获得第四训练信号1210，并且通过对第一训练信号1201和第四训练信号1210进行比较来获得放大损失信息1280(S1490)。

第二DNN 600、第三DNN 1000和第四DNN 1100根据通过组合缩减损失信息1270、放大损失信息1280和匹配损失信息1290中的至少一个获得的最终损失信息更新参数(S1492、S1494和S1496)。

训练装置1300可以重复操作S1320至S1496，直到第一DNN 400、用于训练的DNN1240、第二DNN 600、第三DNN 1000和第四DNN 1100的参数被优化。

图12至图14示出了频率特征信号嵌入到第二音频信号115中的情况的训练过程，现在将参照图15至图17描述频率特征信号没有嵌入在第二音频信号115中的情况的训练过程。

图15示出了训练第一DNN 400、第二DNN 600、第三DNN 1000和第四DNN 1100的另一种方法。

图15中的第一训练信号1501对应于第一音频信号105，第二训练信号1505对应于第二音频信号115。此外，第三训练信号1506对应于第三音频信号135，第四训练信号1510对应于第四音频信号145。

通过对第一训练信号1501进行频率变换(1520)获得频域训练信号1502，并且频域训练信号1502被输入到第一DNN 400。第一DNN 400根据预设参数对频域训练信号1502进行处理，获得用于训练的频率特征信号1503。

第一训练信号1501被输入到第二DNN 600，并且第二DNN 600通过预设参数获得第二训练信号1505。

通过第一编码和第一解码(1550)来处理用于训练的频率特征信号1503和第二训练信号1505。更详细地，用于训练的音频数据是通过相对于用于训练的频率特征信号1503和第二训练信号1505进行第一编码获得的，而第三训练信号1506和用于训练的频率特征信号1507是通过相对于用于训练的音频数据进行第一解码获得的。用于训练的频率特征信号1507被输入到第三DNN 1000，第三训练信号1506被输入到第四DNN 1100。第三DNN 1000通过预设参数对用于训练的频率特征信号1507进行处理来获得用于训练的权重信号1508。

第四DNN 1100通过预设参数从第三训练信号1506获得用于训练的中间音频信号1509。通过组合用于训练的权重信号1508与用于训练的中间音频信号1509来获得第四训练信号1510。

在图15中，由第一DNN 400获得的用于训练的频率特征信号1503被输入到用于训练的DNN 1540，并且用于训练的DNN 1540是用于验证第一DNN 400是否准确生成了用于训练的频率特征信号1503的DNN。用于训练的DNN 1540可以具有第一DNN 400的镜像结构。用于训练的DNN 1540通过处理用于训练的频率特征信号1503来重建频域训练信号1504。

生成损失信息(LossDG)1560是作为通过频率变换(1520)获得的频域训练信号1502与通过用于训练的DNN 1540获得的频域训练信号1504之间的比较结果获得的。生成损失信息(LossDG)1560可以包括通过频率变换(1520)获得的频域训练信号1502与通过用于训练的DNN 1540获得的频域训练信号1504之间的L1范数值、L2范数值、SSIM值、PSNR-HVS值、MS-SSIM值、VIF值和VMAF值中的至少一个。例如，生成损失信息1560可以表示为上述公式1。

第一训练信号1501通过传统缩减1530被改变为少声道训练信号，并且作为少声道训练信号和第二训练信号1505之间的比较结果获得缩减损失信息(LossDown)1570。缩减损失信息(LossDown)1570可以包括少声道训练信号和第二训练信号1505之间的L1范数值、L2范数值、SSIM值、PSNR-HVS值、MS-SSIM值、VIF值和VMAF值中的至少一个。例如，缩减损失信息1570可以表示为上述公式2。

根据第一训练信号1501和第四训练信号1510之间的比较结果，获得放大损失信息(LossUp)1580。放大损失信息(LossUp)1580可以包括第一训练信号1501和第四训练信号1510之间的L1范数值、L2范数值、SSIM值、PSNR-HVS值、MS-SSIM值、VIF值和VMAF值中的至少一个。例如，放大损失信息1580可以表示为上述公式3。

与图12中描述的训练过程相比，在图15的训练过程中，没有获得匹配丢失信息(LossM)1290。这是因为，在图15的训练过程中，用于训练的频率特征信号1503没有嵌入在第二训练信号1505中，并且通过第一解码获得的用于训练的频率特征信号1507和通过第一DNN 400获得的用于训练的频率特征信号1503是相同的。

第一DNN 400、第二DNN 600、第三DNN 1000和第四DNN 1100可以各自更新参数以减小或最小化通过组合生成损失信息1560、缩减损失信息1570和放大损失信息1580中的至少一个获得的最终损失信息。

详细地，第一DNN 400和用于训练的DNN 1540可以更新参数以减少或最小化生成损失信息1560。此外，第二DNN 600、第三DNN 1000和第四DNN 1100可以各自更新参数以减小或最小化作为缩减损失信息1570和放大损失信息1580的组合的结果而获得的最终损失信息。

第一DNN 400和用于训练的DNN 1540的训练可以表示为上述公式5，第二DNN 600、第三DNN 1000和第四DNN 1100的训练可以表示为下面的公式7。

公式7

在等式7中，ω_Phase2指示第二DNN 600、第三DNN 1000和第四DNN 1100的参数集，α指示预设权重。第二DNN 600、第三DNN 1000和第四DNN 1100获得通过训练获得参数集以最小化作为缩减损失信息(LossDown)1570和放大损失信息(LossUp)1580的组合的结果而获得的最终损失信息。

在实施例中，可以交替进行第一DNN 400和用于训练的DNN 1540的训练以及第二DNN 600、第三DNN 1000和第四DNN 1100的训练。更详细地，第一DNN 400和用于训练的DNN1540根据初始设置的参数对输入信号进行处理，然后根据生成损失信息1560更新参数。然后，第一DNN 400和用于训练的DNN 1540根据更新的参数对输入信号进行处理，第二DNN600、第三DNN 1000和第四DNN 1100根据初始设置的参数对输入信号进行处理。第二DNN600、第三DNN 1000和第四DNN 1100各自根据作为处理输入信号的结果而获得的放大损失信息1580和缩减损失信息1570中的至少一个来更新参数。当第二DNN 600、第三DNN 1000和第四DNN 1100对参数的更新完成时，第一DNN 400和用于训练的DNN 1540再次更新参数。

图16和图17示出了用于描述由训练装置1300训练第一DNN 400、第二DNN 600、第三DNN 1000和第四DNN 1100的过程的流程图。

参照图15描述的第一DNN 400、用于训练的DNN 1240、第二DNN 600、第三DNN 1000和第四DNN 1100的训练可以由训练装置1300执行。训练装置1300可以包括第一DNN 400、用于训练的DNN 1540、第二DNN 600、第三DNN 1000和第四DNN 1100。例如，训练装置1300可以是音频编码装置200或单独的服务器。作为训练的结果获得的第三DNN 1000和第四DNN1100可以被存储在音频解码装置900中。

参照图16，训练装置1300初始设置第一DNN 400、用于训练的DNN 1240、第二DNN600、第三DNN 1000和第四DNN 1100的参数(S1610)。

训练装置1300将通过频率变换(1520)从第一训练信号1501获得的频域训练信号1502输入到第一DNN 400(S1620)。第一DNN 400将用于训练的频率特征信号1503输出到用于训练的DNN 1540(S1630)，并且用于训练的DNN 1540将重建的频域训练信号1504输出到训练装置1300(S1640)。

训练装置1300将通过频率变换(1520)获得的频域训练信号1502与从用于训练的DNN 1540输出的频域训练信号1504进行比较，从而计算生成损失信息1560(S1650)。然后，第一DNN 400和用于训练的DNN 1540各自根据生成损失信息1560更新参数(S1660和S1670)。

训练装置1300将通过频率变换(1520)从第一训练信号1501获得的频域训练信号1502输入回第一DNN 400(S1680)。第一DNN 400通过更新的参数处理频域训练信号1502，从而将用于训练的频率特征信号1503输出到训练装置1300(S1690)。与图13相比，用于训练的频率特征信号1503没有嵌入在第二训练信号1505中，因此，在图16中，用于训练的频率特征信号1503没有输入到第二DNN 600。

接下来，在图17中，训练装置1300将第一训练信号1501输入到第二DNN 600(S1710)，并且第二DNN 600通过处理第一训练信号1501将第二训练信号1505输出到训练装置1300(S1720)。

训练装置1300根据第二训练信号1505和从第一训练信号1501传统缩减的少声道训练信号(1530)之间的比较结果，获得缩减损失信息1570(S1730)。

训练装置1300将通过第一编码和第一解码获得的第三训练信号1506和用于训练的频率特征信号1507分别输入到第四DNN 1100和第三DNN 1000(S1740和S1750)。第四DNN1100通过处理第三训练信号1506输出用于训练的中间音频信号1509(S1760)，第三DNN1000通过处理用于训练的频率特征信号1507输出用于训练的权重信号1508(S1770)。

训练装置1300通过组合用于训练的中间音频信号1509和用于训练的权重信号1508来获得第四训练信号1510，并且通过对第一训练信号1501和第四训练信号1510进行比较来获得放大损失信息1580(S1780)。

第二DNN 600、第三DNN 1000和第四DNN 1100根据通过组合缩减损失信息1570和放大损失信息1580中的至少一个获得的最终损失信息更新参数(S1792、S1794和S1796)。

训练装置1300可以重复操作S1620至S1796，直到第一DNN 400、用于训练的DNN1540、第二DNN 600、第三DNN 1000和第四DNN 1100的参数被优化。

图18示出了用于描述根据实施例的音频编码方法的流程图。

在S1810中，编码装置200将包括n个声道的第一音频信号105从时域变换到频域。由于变换的结果，频域的第一音频信号可以具有n个声道。

在S1820中，编码装置200通过第一DNN 400对频域的第一音频信号进行处理，从而获得频率特征信号，该频率特征信号在预定时间段内的每个声道的样本数量小于频域的第一音频信号的每个声道的样本数量。

在S1830，编码装置200通过使用第二DNN 600从第一音频信号105获得包括m个声道(其中，m<n)的第二音频信号115。第二音频信号115的时间长度可以等于第一音频信号105的时间长度，并且第二音频信号115的声道数量可以小于第一音频信号105的声道数量。

在S1840中，编码装置200通过对第二音频信号115和频率特征信号进行第一编码来获得音频数据。如上所述，频率特征信号可以嵌入在第二音频信号115中，然后可以进行第一编码，或者第二音频信号115和频率特征信号中的每一个可以进行第一编码，然后被包括在音频数据中。

图19示出了用于描述根据实施例的音频解码方法的流程图。

在S1910中，解码装置900通过对音频数据进行第一解码获得包括m个声道的第三音频信号135和频率特征信号。第四DNN 1100可以在处理过程中相对于第三音频信号135提取频率特征信号。

在操作S1920中，解码装置900通过使用第三DNN 1000从频率特征信号获得权重信号。权重信号的时间长度和声道数量可以等于第一音频信号105和第四音频信号145的时间长度和声道数量。

在S1930中，解码装置900通过使用第四DNN 1100从第三音频信号135获得包括n个声道的中间音频信号。中间音频信号的时间长度和声道数量可以等于第一音频信号105和第四音频信号145的时间长度和声道数量。

在操作S1940中，解码装置900通过将权重信号应用于中间音频信号来获得包括n个声道的第四音频信号145。

第四音频信号145可以被输出到再现装置(例如，扬声器)进行再现。

本公开的上述实施例可以被写成可存储在介质中的计算机可执行程序。

该介质可以连续存储计算机可执行程序，或者可以临时存储计算机可执行程序以供执行或下载。此外，介质可以是各种记录介质或存储介质中的任意一种，其中单个硬件或多个硬件被组合，并且该介质不限于直接连接到计算机系统的介质，而是可以分布在网络上。介质的示例包括诸如硬盘、软盘和磁带的磁介质，诸如CD-ROM和DVD的光记录介质，诸如光盘的磁光介质，以及只读存储器(ROM)、随机存取存储器(RAM)和闪存，它们被配置为存储程序指令。介质的其他示例包括由分发应用的应用商店或者由提供或分发其他各种类型软件的网站、服务器等管理的记录介质和存储介质。

虽然参考示例性实施例描述了本公开的技术概念，但是本公开不限于这些实施例，并且本领域普通技术人员可以在不脱离本公开的技术概念的情况下进行各种修改和改变。

Claims

1.一种音频信号处理装置，包括：

存储器，存储一个或多个指令；以及

处理器，被配置为执行存储在存储器中的一个或多个指令，

其中，该处理器被配置为：

对包括n个声道的第一音频信号进行频率变换，以生成频域的第一音频信号，

基于第一深度神经网络(DNN)，从频域的第一音频信号生成每个声道的频率特征信号，

基于第二DNN，从第一音频信号生成包括m(其中，m<n)个声道的第二音频信号，以及

通过对第二音频信号和频率特征信号进行编码，生成输出音频信号，

其中，第一音频信号是包括零阶信号和多个一阶信号的高阶环绕声信号，以及

第二音频信号包括单声道信号和立体声信号中的一个。

2.根据权利要求1所述的音频信号处理装置，其中

所述频率特征信号包括每个声道的代表值，以及

每个声道的代表值是对应于频域的第一音频信号的每个声道的多个频段的值。

3.根据权利要求1所述的音频信号处理装置，其中

第二DNN从第一音频信号中获得音频特征信号，并且从其中组合了音频特征信号和频率特征信号的集成特征信号中输出第二音频信号。

4.根据权利要求3所述的音频信号处理装置，其中

所述集成特征信号是通过用频率特征信号的样本替换音频特征信号的声道中的一些声道的样本而获得的。

5.根据权利要求4所述的音频信号处理装置，其中

所述一些声道包括从音频特征信号的声道中的第一个声道开始的预定数量的连续声道或者从音频特征信号的声道中的最后一个声道开始的预定数量的连续声道。

6.根据权利要求3所述的音频信号处理装置，其中

所述音频特征信号的时间长度等于所述频率特征信号的时间长度。

7.根据权利要求1所述的音频信号处理装置，其中

在频率特征信号中，每个声道在预定时间段期间的样本数为1。

8.根据权利要求1所述的音频信号处理装置，其中

所述输出音频信号被表示为比特流，并且

所述频率特征信号被包括在所述比特流的补充区域中。

9.根据权利要求1所述的音频信号处理装置，其中

所述处理器被配置为通过组合从第二DNN输出的中间音频信号与从第一音频信号缩减的少声道音频信号来获得第二音频信号。

10.根据权利要求1所述的音频信号处理装置，其中

第一DNN是基于从第一训练信号变换的频域训练信号与通过用于训练的DNN从用于训练的频率特征信号重建的频域训练信号进行比较的结果来训练的，以及

所述用于训练的频率特征信号是基于第一DNN从频域训练信号中获得的。

11.根据权利要求10所述的音频信号处理装置，其中

第二DNN是基于以下结果中的至少一个来训练的：将经由第二DNN从第一训练信号获得的第二训练信号与从第一训练信号缩减的少声道训练信号进行比较的结果，

将第一训练信号与从用于训练的音频数据中重建的第四训练信号进行比较的结果，以及

将用于训练的频率特征信号与从用于训练的音频数据中获得的用于训练的频率特征信号进行比较的结果。

12.根据权利要求11所述的音频信号处理装置，其中

第一DNN和第二DNN被交替地训练。

13.一种音频信号处理装置，包括

存储器，存储一个或多个指令；以及

处理器，被配置为执行存储在存储器中的一个或多个指令，

其中，该处理器被配置为：

通过对输入音频信号进行解码，生成包括m个声道的第三音频信号和频率特征信号，

基于第三深度神经网络(DNN)，从频率特征信号生成包括n(其中，n>m)个声道的权重信号，以及

通过将所述权重信号应用于经由第四DNN从第三音频信号生成的包括n个声道的中间音频信号，生成包括n个声道的第四音频信号，

其中，第三音频信号包括单声道信号和立体声信号中的一个，以及

第四音频信号是包括零阶信号和多个一阶信号的高阶环绕声信号。

14.根据权利要求13所述的音频信号处理装置，其中

第四DNN通过处理第三音频信号来获得集成特征信号，以及从集成特征信号中包括的音频特征信号中输出中间音频信号，以及

所述频率特征信号是从集成特征信号中被提取，然后被输入到第三DNN。

15.根据权利要求13所述的音频信号处理装置，其中

所述处理器被配置为通过将中间音频信号的样本与权重信号的样本相乘来获得第四音频信号。