CN113574597B

CN113574597B - 用于使用声音质量的估计和控制的源分离的装置和方法

Info

Publication number: CN113574597B
Application number: CN201980092879.8A
Authority: CN
Inventors: 克里斯蒂安·乌勒; 马特奥·托尔科利; 萨沙·迪史克; 约尼·鲍卢斯; 于尔根·赫勒; 奥利弗·赫尔穆特; 哈拉尔德·福斯
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2018-12-21
Filing date: 2019-12-20
Publication date: 2024-04-12
Anticipated expiration: 2039-12-20
Also published as: JP7314279B2; JP2022514878A; CA3124017A1; WO2020127900A1; CA3124017C; KR20210110622A; CN113574597A; MX2021007323A; EP3899936C0; KR102630449B1; EP3899936A1; EP3899936B1; ES2966063T3; EP3671739A1; BR112021012308A2; US20210312939A1

Abstract

提供了一种用于从音频输入信号生成分离的音频信号的装置。音频输入信号包括目标音频信号部分和残差音频信号部分。残差音频信号部分指示音频输入信号与目标音频信号部分之间的残差。所述装置包括源分离器(110)、确定模块(120)和信号处理器(130)。源分离器(110)被配置为确定取决于音频输入信号的估计的目标信号，估计的目标信号是仅包括目标音频信号部分的信号的估计。确定模块(120)被配置为根据估计的目标信号的估计声音质量确定一个或多个结果值以获得一个或多个参数值，其中一个或多个参数值是一个或多个结果值、或者取决于一个或多个结果值。信号处理器(130)被配置为根据一个或多个参数值、以及根据估计的目标信号和音频输入信号和估计的残差信号中的至少一个来生成分离的音频信号，估计的残差信号是仅包括残差音频信号部分的信号的估计。

Description

用于使用声音质量的估计和控制的源分离的装置和方法

技术领域

本发明涉及音频信号的源分离，尤其涉及分离的输出信号的声音质量的信号自适应控制，以及尤其涉及一种利用声音质量的估计和控制进行源分离的装置和方法。

背景技术

在源分离中，输出信号的质量会下降，并且这种下降会随着干扰信号的衰减而单调增加。

过去已经进行了音频信号的源分离。

音频信号的源分离的目的在于在给定混合信号x(n)的情况下获得的目标信号s(n)，

x(n)＝s(n)+b(n) (1)

其中b(n)包括所有干扰信号并且在下文中被称为“干扰信号”。分离的输出h(·)是目标信号的估计，

并且可能额外估计干扰信号

这种处理通常会在输出信号中引入伪迹，从而降低声音质量。声音质量的这种下降随着分离量、干扰信号的衰减而单调增加。许多应用不需要完全分离而是部分增强，干扰声音被衰减但仍然存在于输出信号中。

这具有附加的好处，即声音质量高于完全分离的信号，因为引入的伪迹更少，并且干扰信号的泄漏部分掩盖了感知的伪迹。

部分掩蔽音频信号意味着其响度(例如，其感知强度)部分降低。此外可能希望和要求的是，输出的声音质量不会低于定义的声音质量级别，而不是实现大的衰减。

这种应用的例子是对话增强。电视和无线电广播以及电影声音中的音频信号通常是语音信号和背景信号的混合，例如环境声音和音乐。当这些信号混合使得语音的级别与背景的级别相比太低时，听者可能难以理解所说的内容，或者需要非常高的收听努力才能理解，这导致听者疲劳。自动降低背景的级别的方法可用于此类场景，但结果应该是高声音质量。

现有技术中存在各种用于源分离的方法。现有技术中已经讨论了从混合信号中分离目标信号。这些方法可以分为两种方法。第一类方法基于关于信号模型和/或混合模型的公式化假设。信号模型描述了输入信号的特性，这里是s(n)和b(n)。混合模型描述了如何组合输入信号以产生混合信号x(n)的特性，这里是通过加法。

基于这些假设，分析或启发式地设计方法。例如，独立分量分析的方法可以通过假设混合包括两个统计独立的源信号导出，混合已被两个麦克风捕获，并且混合是通过将两个信号相加(产生瞬时混合)来推导出来的。然后混合的逆过程在数学上导出为混合矩阵的求逆，并且根据指定的方法计算此解混合矩阵的元素。大多数分析导出的方法是通过将分离问题公式化为标准的数值优化而导出的，例如真实目标与估计目标之间的均方误差。

第二类是数据驱动的。这里，估计的目标信号的表示，或者估计用于从输入混合中检索目标信号的一组参数。此估计基于已在一组训练数据上训练的模型，因此称为“数据驱动”。此估计是通过优化标准得出的，例如给定训练数据，通过最小化真实目标与估计目标之间的均方误差。此类别的示例是人工神经网络(ANN)，人工神经网络(ANN)已被训练为在给定语音信号和干扰信号的混合情况下输出语音信号的估计。在训练期间，人工神经网络的可调参数被确定，从而优化为一组训练数据计算的性能标准——在整个数据集上是平均的。

关于源分离，在均方误差意义上最佳或相对于任何其他数值标准最佳的解决方案不一定是人类听者首选的具有最高声音质量的解决方案。

第二个问题源于这样一个事实，即源分离总是会导致两种效果，第一是所需的干扰声音的衰减，第二是不希望的声音质量下降。两种效应是相关的，例如增加想要的效果会增加不想要的效果。最终目的是控制两者之间的权衡。

可以估计声音质量，例如，通过听力测试或通过声音质量的计算模型来量化。声音质量有多个方面，以下称为声音质量分量(SQC)。

例如，声音质量由感知的伪迹的强度决定(这些是由信号处理引入的信号分量，例如源分离，并且会降低声音质量)。

或者，例如，声音质量由干扰信号的感知强度确定，或者例如由语音可懂度(intelligibility)(当目标信号是语音时)，或者例如由整体声音质量确定。

存在各种声音质量的计算模型，它们计算(估计)声音质量分量q_m，1≤m≤M，其中M表示声音质量分量的数量。

这种方法通常在给定目标信号和目标信号的估计值的情况下估计声音质量分量，

或者，在还给定干扰信号的情况下，

在实际应用中，目标信号s(n)(和干扰信号b(n))是不可用的，否则就不需要分离。当只有输入信号x(n)和目标信号的估计可用时，使用这些方法无法计算声音质量分量。

在现有技术中，已经描述了用于估计包括可懂度在内的声音质量方面的不同计算模型。

盲源分离评估(BSSEval)(参见[1])是一种多标准性能评估工具箱。估计的信号通过正交投影分解为目标信号分量、来自其他源的干扰和伪影。指标计算为这些分量的能量比并以dB表示。它们是：源失真比(SDR)、源干扰比(SIR)和源伪迹比(SAR)。

音频源分离的感知评估方法(PEASS)(参见[2])被设计为BSSEval的感知驱动的继承者。信号投影是在时间段上进行的，并使用伽马色调滤波器组。

PEMO-Q(参见[3])用于提供多种特征。使用经过主观评分训练的神经网络从这些特征中获得四个感知分数。分数是：总体感知分数(OPS)、干扰相关感知分数(IPS)、伪迹相关感知分数(APS)和目标相关感知分数(TPS)。

音频质量感知评估(PEAQ)(参见[4])是为音频编码设计的度量。它采用外周耳模型来计算参考信号和测试信号的基底膜表示。这些表示之间的差的方面由几个输出变量量化。通过用主观数据训练的神经网络，将这些变量组合起来给出主要输出，例如整体差等级(ODG)。

语音质量感知评估(PESQ)(参见[5])是为通过电信网络传输的语音而设计的度量标准。因此，此方法包括模拟手机的预处理。根据信号的特定响度计算可听干扰的测量，并在PESQ分数中组合。从中可以通过多项式映射函数预测MOS分数(参见[6])。

ViSQOLAudio(参见[7])是一种设计用于以低位率编码的音乐的度量，由虚拟语音质量客观听者(ViSQOL)开发。这两个度量都基于外周听觉系统模型，以创建称为神经图的信号的内部表示。这些是经由结构相似性指标的适应进行比较的，此指标最初是为评估压缩图像的质量而开发的。

助听器音频质量指标(HAAQI)(参见[8])是旨在预测个人通过助听器收听的音乐质量的指标。此指标基于听觉外围模型，扩展到包括听力损失的影响。这适用于听力正常或听力受损的听者做出的质量评级的数据库。听力损失模拟可以被绕过，此指标也对听力正常的人有效。基于相同的听觉模型，HAAQI的作者还提出了语音质量的指标，助听器语音质量指标(HASQI)(参见[9])和语音可懂度的指标，助听器语音感知指标(HASPI)(参见[10])。

短时客观可懂度(STOI)(参见[11])是一种预期与平均语音可懂度具有单调关系的测量。它特别处理由某种类型的时频权重处理的语音。

在[12]中，训练人工神经网络以仅在给定输入信号和输出估计的目标信号的情况下估计源失真比，其中源失真比的计算通常也将真实目标和干扰信号作为输入。分离算法的池在同一输入信号上并行运行。源失真比估计用于为每个时间帧从具有最佳源失真比的算法选择输出。因此，没有制定对声音质量与分离之间的权衡的控制，并且没有提出对分离算法的参数的控制。此外，使用了源失真比，它不是感知驱动的，并且与感知质量的相关性很差，例如在[13]中。

此外，最近有一些关于通过监督学习进行语音增强的工作，其中声音质量分量估计被集成到成本函数中，而传统上，语音增强模型是基于估计语音与干净语音之间的均方误差(MSE)进行优化的。例如，在[14]、[15]、[16]中使用了基于STOI而不是MSE的成本函数。在[17]中使用了基于PESQ或PEASS的强化学习。然而，无法控制声音质量与分离之间的权衡。

在[18]中提出了一种音频处理设备，其中将可听度测量与伪迹识别测量一起使用，以便控制由处理应用的时频增益。这是为了提供，例如，在不引入伪迹的约束下，降噪量处于最大水平，声音质量与分离之间的权衡是固定的。此外，此系统不涉及监督学习。为了识别伪迹，使用了峰态比，这是一种直接比较输出和输入信号(可能在不存在语音的片段中)的测量，而无需真实目标和干扰信号。可听度测量丰富了这个简单的测量方法。

发明内容

本发明的目的是提供用于源分离的改进概念。本发明的目的通过根据权利要求1的装置、根据权利要求16的方法和根据权利要求17的计算机程序来解决。

提供了一种用于从音频输入信号生成分离的音频信号的装置。音频输入信号包括目标音频信号部分和残差音频信号部分。残差音频信号部分指示音频输入信号与目标音频信号部分之间的残余。此装置包括源分离器、确定模块和信号处理器。源分离器被配置为确定取决于音频输入信号的估计的目标信号，估计的目标信号是仅包括目标音频信号部分的信号的估计。确定模块被配置为根据估计的目标信号的估计声音质量确定一个或多个结果值以获得一个或多个参数值，其中一个或多个参数值是一个或多个结果值、或者取决于一个或多个结果值。信号处理器被配置为根据一个或多个参数值、以及根据估计的目标信号和音频输入信号和估计的残差信号中的至少一个来生成分离的音频信号，估计的残差信号是仅包括残差音频信号部分的信号的估计。

此外，提供了一种用于从音频输入信号生成分离的音频信号的方法。音频输入信号包括目标音频信号部分和残差音频信号部分。残差音频信号部分指示音频输入信号与目标音频信号部分之间的残余。此方法包括：

-确定取决于音频输入信号的估计的目标信号，估计的目标信号是仅包括目标音频信号部分的信号的估计。

-根据估计的目标信号的估计声音质量确定一个或多个结果值以获得一个或多个参数值，其中一个或多个参数值是一个或多个结果值、或者取决于一个或多个结果值。

以及：

-根据一个或多个参数值、以及根据估计的目标信号和音频输入信号和估计的残差信号中的至少一个来生成分离的音频信号，估计的残差信号是仅包括残差音频信号部分的信号的估计。

此外，提供了一种用于在计算机或信号处理器上执行时实现上述方法的计算机程序。

附图说明

下面结合附图对本发明的实施例进行更详细的描述，其中：

图1a示出了根据实施例的用于从音频输入信号生成分离的音频信号的装置，

图1b示出了根据另一个实施例的用于生成分离的音频信号的装置，此装置进一步包括人工神经网络，

图2示出了根据实施例的装置，其被配置为使用声音质量的估计并且被配置为进行后处理，

图3示出了根据另一实施例的装置，其中进行后处理参数的直接估计，

图4示出了根据进一步实施例的装置，其中进行声音质量和二次分离的估计，以及

图5示出了根据另一实施例的装置，其中进行了分离参数的直接估计。

具体实施方式

图1a示出了根据实施例的用于从音频输入信号生成分离的音频信号的装置。音频输入信号包括目标音频信号部分和残差音频信号部分。残差音频信号部分指示音频输入信号与目标音频信号部分之间的残余。

此装置包括源分离器110、确定模块120和信号处理器130。

源分离器110被配置为确定取决于音频输入信号的估计的目标信号，估计的目标信号是仅包括目标音频信号部分的信号的估计。

确定模块120被配置为根据估计的目标信号的估计声音质量确定一个或多个结果值以获得一个或多个参数值，其中一个或多个参数值是一个或多个结果值、或者取决于一个或多个结果值。

信号处理器130被配置为根据一个或多个参数值并且根据估计的目标信号和音频输入信号和估计的残差信号中的至少一个来生成分离的音频信号。估计的残余信号是仅包括残差音频信号部分的信号的估计。

可选地，在实施例中，确定模块120例如可以被配置为根据估计的目标信号、以及根据音频输入信号和估计的残差信号中的至少一个来确定一个或多个结果值。

实施例使用监督学习提供对声音质量与分离之间的权衡的感知激励和信号自适应控制。这可以通过两种方式实现。第一种方法估计输出信号的声音质量并使用此估计来适应分离的参数或分离信号的后处理。在第二实施例中，回归方法直接输出控制参数，使得输出信号的声音质量满足预定要求。

根据实施例，对分离的输入信号和输出信号进行分析以产生对声音质量q_m的估计，并且基于q_m确定处理参数使得输出的声音质量(当使用确定的处理参数时)不低于定义的质量值。

在一些实施例中，分析在(9)中输出质量测量q_m。根据质量测量，计算以下公式(13)中的控制参数p1(例如，缩放因子)，并通过混合初始输出和输入获得如下公式(13)中的最终输出。计算p1＝f(q_m)可以迭代地或通过回归来完成，从一组训练信号中学习回归参数，参见图2。在实施例中，代替缩放因子，控制参数可以例如，是平滑参数等。

在一些实施例中，分析直接产生(13)中的控制参数p1，见图3。

图4和图5定义了进一步的实施例。

一些实施例在后处理步骤中实现对声音质量的控制，如下所述。

可以独立于分离方法应用这里描述的实施例的子集。这里描述的一些实施例控制分离过程的参数。

使用频谱加权的源分离处理时频域或短时频谱域中的信号。输入信号x(n)通过短时傅立叶变换(STFT)进行变换或通过滤波器组进行处理，产生复值STFT系数或子带信号X(m,k)，其中m表示时间帧索引，k表示频率二进制位索引或子带索引。所需信号的复值STFT系数或子带信号为S(m,k)，干扰信号的复值STFT系数或子带信号为B(m,k)。

分离的输出信号通过频谱加权计算为

其中频谱权重G(m,k)按元素与输入信号相乘。目的是衰减X(m,k)中干扰B(m,k)较大的元素。为此，可以基于目标的估计或干扰/>的估计或信号干扰比的估计来计算频谱权重，例如，

或者

其中a和c是控制分离的参数。例如，增加c会导致干扰的衰减更大，但也会导致声音质量的更大下降。频谱权重可以进一步修改，例如通过阈值化使得G大于阈值。修改后的增益G_m计算为

增加阈值v会减少干扰的衰减并减少声音质量的潜在下降。

所需的量(目标或干扰/>或信号干扰比)的估计是这些方法的核心，过去已经开发了各种估计方法。它们遵循上述两种方法之一。

然后使用STFT或滤波器组的逆处理计算输出信号

下面，描述根据实施例的使用目标信号的估计的源分离。

目标信号的表示也可以直接从输入信号中估计出来，例如通过人工神经网络。最近提出了各种方法，其中训练人工神经网络来估计目标时间信号，或其STFT系数，或STFT系数的大小。

关于声音质量，通过应用监督学习模型g(·)获得声音质量分量(SQC)来估计这些计算模型的输出，

监督学习方法g(·)是通过以下方式实现的：

1.使用可训练参数、N_i个输入变量和N_o个输出变量配置监督学习模型g(·)，

2.使用目标s(n)和混合x(n)的示例信号生成数据集，

3.通过源分离计算目标信号的估计，

4.根据(9)或(10)通过声音质量的计算模型从获得的信号计算声音质量分量q_m，

5.训练监督学习模型g(·)使其输出估计给定估计目标/>(源分离的输出)和混合x(n)的相应示例信号。可替代地，训练监督学习模型g(·)使其输出估计/>给定和/>(如果/>)。

6.在应用中，训练模型被输入估计目标(源分离的输出)，估计目标/>使用源分离方法与混合x(n)一起从混合x(n)获得。

提供了用于对分离的输出信号进行质量控制的监督学习方法的应用。

在下文中，描述了根据实施例的使用监督学习的声音质量的估计。

图1b示出了实施例，其中确定模块120包括人工神经网络125。人工神经网络125可以例如被配置为根据估计的目标信号确定一个或多个结果值。人工神经网络125可以例如被配置为接收多个输入值，多个输入值中的每一个取决于所述估计的目标信号和所述估计的残差信号和所述音频输入信号中的至少一个。人工神经网络125可以例如被配置为将一个或多个结果值确定为人工神经网络125的一个或多个输出值。

可选地，在实施例中，人工神经网络125可以例如被配置为根据所述估计的目标信号、以及所述音频输入信号和估计的残差信号中的至少一个来确定一个或多个结果值。

在实施例中，多个输入值中的每一个可以例如取决于所述估计的目标信号和所述估计的残差信号和所述音频输入信号中的至少一个。一个或多个结果值可以例如指示估计的目标信号的估计声音质量。

根据实施例，多个输入值中的每一个可以例如取决于所述估计的目标信号和所述估计的残差信号和所述音频输入信号中的至少一个。一个或多个结果值可以例如是一个或多个参数值。

在实施例中，人工神经网络125可以例如被配置为通过接收多个训练集来训练，其中多个训练集中的每一个包括人工神经网络125的多个输入训练值和人工神经网络125的一个或多个输出训练值，其中多个输出训练值中的每一个可以例如取决于训练目标信号和训练残差信号和训练输入信号中的至少一个，其中每个或多个输出训练值可以例如取决于训练目标信号的声音质量的估计。

在实施例中，对声音质量分量的估计是通过使用监督学习模型(SLM)的监督学习获得的，例如人工神经网络(ANN)125。人工神经网络125可以是例如全连接的人工神经网络125，其包括具有A个单元的输入层、至少一个具有每个至少两个单元的输入层的隐藏层，以及具有一个或多个单元的输出层。

监督学习模型可以实现为回归模型或分类模型。回归模型在输出层中的一个单元的输出处估计一个目标值。可替代地，通过将输出值量化为至少3个步骤并使用具有C个单元的输出层，其中C等于量化步骤的数量，可以将回归问题表述为分类问题。

对于每个量化步骤，使用一个输出单元。

监督学习模型首先使用包含混合信号x、估计目标和声音质量分量q_m的多个示例的数据集进行训练，其中声音质量分量是从估计目标/>和例如真实目标s计算的。数据集的一项由/>表示。监督学习模型的输出在这里用q_i表示。

输入层A中的单元的数量对应于输入值的数量。模型的输入是根据输入信号计算出来的。每个信号都可以通过时频变换的滤波器组进行可选的处理，例如短期傅里叶变换(STFT)。例如，可以通过连接从x_i和的D个相邻帧计算的STFT系数来构建输入，其中D＝3或D＝7。B为每帧频谱系数的总数，输入系数的总数为2·B·D。

人工神经网络125的每个单元将其输出计算为输入值的线性组合，然后可选地用非线性压缩函数进行处理，

其中u表示单个神经元的输出，v_i表示个输入值，w_i表示线性组合的K个权重，o_i表示K个附加偏项。对于第一隐藏层中的单元，输入值K的数量等于输入系数D的数量。所有w_i和o_i都是在训练过程中确定的人工神经网络125的参数。

一层的单元连接到下一层的单元，前一层单元的输出是下一层单元的输入。

训练是通过使用数值优化方法最小化预测误差来进行的，例如梯度下降法。单个项目的预测误差是差值的函数。整个数据集或用作优化标准的数据集的子集的预测误差是例如均方误差MSE或平均绝对误差MAE，其中N表示数据集中的项目的数量。

如果其他误差度量是e_i的单调函数并且是可微的，则它们对于训练是可行的。此外，还存在用于构建人工神经网络的其他结构和元素，例如卷积神经网络层或循环神经网络层。

所有这些都有一个共同点，它们实现了从多维输入到一维或多维输出的映射，其中映射函数由一组参数(例如w_i和o_i)控制，这些参数在训练过程中通过优化标量标准来确定。

训练后，给定混合，监督学习模型可用于估计未知估计目标的声音质量，而无需真实目标s。

关于声音质量的计算模型，用于估计声音质量方面(包括可懂度)的不同计算模型已经成功地用于根据实施例的实验中，诸如在[1]-[11]中描述的计算模型，特别是盲源分离评估(BSSEval)(见[1])，音频源分离的感知评估方法(PEASS)(见[2])，PEMO-Q(见[3])，音频质量的感知评估(PEAQ)(见[4])、语音质量的感知评估(PESQ)(见[5]和[6])、ViSQOLAudio(见[7]、助听器音频质量指标(HAAQI)(参见[8])、助听器语音质量指标(HASQI)(见[9)，助听器语音感知指标(HASPI)(见[10])和短时客观可懂度(STOI)(见[11])。

因此，根据实施例，训练目标信号的声音质量的估计可以例如取决于声音质量的一个或多个计算模型。

例如，在实施例中，对训练目标信号的声音质量的估计可以例如取决于以下声音质量的计算模型中的一个或多个：

盲源分离评估，

对于音频源分离的感知评估方法，

音频质量的感知评估，

语音质量的感知评估，

虚拟语音质量客观听者音频，

助听器音频质量指标，

助听器语音质量指标，

助听器语音感知指标，以及

短期客观可懂度。

声音质量的其他计算模型也可以例如用于其他实施例中。

下面描述声音质量的控制。

可以通过估计声音质量分量并基于声音质量分量估计计算处理参数来实现对声音质量的控制，也可以直接估计最优处理参数使得声音质量分量满足目标值q₀(或不低于目标值)。

上面已经描述了声音质量分量的估计。以类似的方式，可以通过使用最佳处理参数的期望值训练回归方法来估计最佳处理参数。如下描述的计算最佳处理参数。此处理在下文中被称为参数估计模块(PEM)。

声音质量q₀的目标值将决定分离与声音质量之间的权衡。此参数可以由用户控制，也可以根据声音再现场景指定。在安静的环境中使用高质量设备在家中进行声音再现可能会受益于更高的声音质量和更低的分离。在嘈杂环境中，通过智能手机内置的扬声器在车辆中进行声音再现可能会受益于较低的声音质量，但较高的分离和语音可懂度。

而且，估计量(声音质量分量或处理参数)可以进一步应用于控制后处理或控制二次分离。

因此，可以使用四个不同的概念来实现提出的方法。这些概念在图2、图3、图4和图5中示出并且在下面进行描述。

图2示出了根据实施例的装置，其被配置为使用声音质量的估计并且被配置为进行后处理。

根据这样的实施例，确定模块120可以例如被配置为根据估计的目标信号和音频输入信号和估计的残差信号中的至少一个来估计作为一个或多个结果值的声音质量值，其中声音质量值表示估计的目标信号的估计声音质量。确定模块120可以例如被配置为根据声音质量值确定一个或多个参数值。

因此，根据实施例，确定模块120可以例如被配置为根据估计的目标信号的估计的声音质量来确定作为一个或多个参数值的控制参数。信号处理器130可以例如被配置为根据控制参数、以及根据估计的目标信号和音频输入信号中的至少一个以及估计的残余信号来确定分离的音频信号。

具体实施例，如下所述：

在第一步骤中，应用分离。分离的信号和未处理的信号是质量估计模块(QEM)的输入。QEM计算声音质量分量的估计。

估计的声音质量分量用于计算一组参数/>以控制后处理。

变量q(n)、p(n)和/>可以是随时间变化的，但是为了清楚的表示，下面省略了时间依赖性。

例如，这种后处理是将输入信号的缩放或滤波副本添加到输出信号的缩放或滤波副本，从而减少干扰信号的衰减(例如分离的影响)，例如

其中参数p₁控制分离量。

在其他实施例中，公式：

例如，可以采用，其中是估计的残差信号。

减少分离导致

1)减少的伪迹的数量以及

2)增加干扰声音的泄漏，掩蔽了分离伪迹。

因此，在实施例中例如，信号处理器130可以被配置为根据公式(13)确定分离的音频信号，其中y是分离的音频信号，其中是估计的目标信号，其中x是音频输入信号，其中p₁为控制参数，其中n为索引。

在给定声音质量和目标质量测量q₀的估计情况下，计算此参数，

例如，此函数f可以是迭代扩展搜索，如下面的伪代码所示。

可替代地，关系可以计算为

1.为一组值p_k计算

2.通过内插和外推计算的剩余值。

例如，当处理参数p如等式(13)中那样控制后处理时，是针对固定数量的p₁值计算的，例如/>的相对放大倍数分别为18、12和6dB。

因此，映射是近似的并且可以选择/>

总之，在实施例中，信号处理器130可以例如被配置为通过确定分离的音频信号的第一版本并且通过修改分离的音频信号一次或多次生成分离的音频信号以获得分离的音频信号的一个或多个中间版本。确定模块120可以例如被配置为根据分离的音频信号的一个或多个中间值之一来修改声音质量值。信号处理器130可以例如被配置为，如果声音质量值大于或等于定义的质量值则停止修改分离的音频信号。

图3示出了根据另一实施例的装置，其中进行后处理参数的直接估计。

首先应用分离。分离的信号是参数估计模块(PEM)的输入。估计的参数用于控制后处理。PEM已被训练为直接从分离的信号和输入信号x(n)中估计p(n)。这意味着等式14中的操作移至训练阶段，训练回归方法以估计/>而不是/>因此，学习以下函数。

很明显，与上述过程相比，此过程具有需要较少计算的优点。这是以灵活性较低为代价的，因为模型是针对q₀的固定设置进行训练的。但是，可以在不同的q₀值上训练多个模型。这样，可以保留最终选择q₀的灵活性。

在实施例中，信号处理器130可以例如被配置为根据一个或多个参数值并且根据估计的目标信号的后处理来生成分离的音频信号。

图4示出了根据进一步实施例的装置，其中进行声音质量和二次分离的估计。

首先应用分离。分离的信号是QEM的输入。估计的声音质量分量用于计算一组用于控制二次分离的参数。二次分离z(n)的输入是输入信号x(n)或第一分离的输出，/> 的线性组合，其中a和b是加权参数或第一次分离的中间结果。

因此，在这样的实施例中，信号处理器130可以例如被配置为根据一个或多个参数值并且根据估计的目标信号与音频输入信号的线性组合来生成分离的音频信号，或者信号处理器130可以例如被配置为根据一个或多个参数值并且根据估计的目标信号与估计的残差信号的线性组合来生成分离的音频信号。

用于控制二次分离的合适参数是例如修改频谱权重的参数。

首先应用分离。分离的信号是PEM的输入。估计的参数控制二次分离。

二次分离z(n)的输入是输入信号x(n)或第一分离的输出，/>的线性组合，其中a和b是加权参数或第一次分离的中间结果。

例如，控制以下参数：a和c来自上述等式(5)、(6)和v。

关于根据实施例的迭代处理，图4和图5描绘了具有一次迭代的迭代处理。一般来说，这可以重复多次，并实现循环中。

迭代处理(中间没有质量估计)与连接多个分离的其他先前方法非常相似。

例如，这种方法可能适用于组合多种不同的方法(这比重复一种方法要好)。

尽管已经在装置的上下文中描述了一些方面，但很明显，这些方面也代表了相应方法的描述，其中块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示相应装置的相应块或项目或特征的描述。一些或所有方法步骤可以通过(或使用)硬件装置来执行，例如微处理器、可编程计算机或电子电路。在一些实施例中，一个或多个最重要的方法步骤可以由这样的装置执行。

根据某些实施要求，本发明的实施例可以以硬件或以软件或至少部分以硬件或至少部分以软件来实施。实现可以使用数字存储介质来执行，例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存，具有存储的电子可读控制信号在其上，它们与可编程计算机系统协作(或能够协作)从而执行相应的方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，控制信号能够与可编程计算机系统协作，从而执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，此程序代码可操作用于执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的用于执行本文描述的方法之一的计算机程序。

换句话说，本发明方法的实施例因此是具有程序代码的计算机程序，当计算机程序在计算机上运行时，程序代码用于执行这里描述的方法之一。

因此，本发明方法的进一步实施例是数据载体(或数字存储介质，或计算机可读介质)，其上记录有用于执行本文描述的方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非暂时性的。

因此，本发明方法的进一步实施例是数据流或信号序列，其表示用于执行本文描述的方法之一的计算机程序。数据流或信号序列可以例如被配置为经由数据通信连接、例如经由因特网来传送。

进一步实施例包括处理装置，例如计算机或可编程逻辑器件，其被配置为或适合于执行本文描述的方法之一。

进一步实施例包括其上安装有用于执行本文描述的方法之一的计算机程序的计算机。

根据本发明的进一步实施例包括被配置为向接收器传送(例如，电子地或光学地)用于执行本文描述的方法之一的计算机程序的装置或系统。例如，接收器可以是计算机、移动设备、存储设备等。例如，装置或系统可以包括用于将计算机程序传送到接收器的文件服务器。

在一些实施例中，可编程逻辑器件(例如现场可编程门阵列)可用于执行本文描述的方法的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文描述的方法之一。通常，这些方法优选地由任何硬件装置执行。

本文描述的装置可以使用硬件装置实现，也可以使用计算机实现，也可以使用硬件装置和计算机的组合实现。

本文描述的方法可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行。

上述实施例仅用于说明本发明的原理。应当理解，对本领域技术人员而言，这里描述的布置和细节的修改和变化将是显而易见的。这是意图，因此，仅受即将提出的专利权利要求的范围限制，而不受本文实施例的描述和解释所呈现的具体细节的限制。

参考文献：

[1]E.Vincent,R.Gribonval,and C.Févotte,“Performance measurement inblind audio source separation,”IEEE Transactions on Audio,Speech and LanguageProcessing,vol.14,no.4,pp.1462–1469,2006.

[2]V.Emiya,E.Vincent,N.Harlander,and V.Hohmann,“Subjective andobjective quality assessment of audio source separation,”IEEE Trans.Audio,Speech and Language Process.,vol.19,no.7,2011.

[3]R.Huber and B.Kollmeier,“PEMO-Q-a new method for objective audioquality assessment using a model of audatory perception,”IEEE Trans.Audio,Speech and Language Process.,vol.14,2006.

[4]ITU-R Rec.BS.1387-1,“Method for objective measurements ofperceived audio quality,”2001.

[5]ITU-T Rec.P.862,“Perceptual evaluation of speech quality(PESQ):Anobjective method for end-to-end speech quality assessment of narrow-bandtelephone networks and speech codecs,”2001.

[6]ITU-T Rec.P.862.1,“Mapping function for transforming P.862rawresults scores to MOS-LQO,”2003.

[7]A.Hines,E.Gillen et al.,“ViSQOLAudio:An Objective Audio QualityMetric for Low Bitrate Codecs,”J.Acoust.Soc.Am.,vol.137,no.6,2015.

[8]J.M.Kates and K.H.Arehart,“The Hearing-Aid Audio Quality Index(HAAQI),”IEEE Trans.Audio,Speech and Language Process.,vol.24,no.2,2016,evaluation code kindly provided by Prof.J.M.Kates.

[9]J.M.Kates and K.H.Arehart,“The Hearing-Aid Speech Quality Index(HASQI)version 2,”Journal of the Audio Engineering Society,vol.62,no.3,pp.99–117,2014.

[10]J.M.Kates and K.H.Arehart,“The Hearing-Aid Speech PerceptionIndex(HASPI),”Speech Communication,vol.65,pp.75–93,2014.

[11]C.Taal,R.Hendriks,R.Heusdens,and J.Jensen,“An algorithm forintelligibility prediction of time-frequency weighted noisy speech,”IEEETrans.Audio,Speech and Language Process.,vol.19,no.7,2011.

[12]E.Manilow,P.Seetharaman,F.Pishdadian,and B.Pardo,“Predictingalgorithm efficacy for adaptive multi-cue source separation,”in Applicationsof Signal Processing to Audio and Acoustics(WASPAA),2017 IEEE Workshop on,2017,pp.274–278.

[13]M.Cartwright,B.Pardo,G.J.Mysore,and M.Hoffman,“Fast and easycrowdsourced perceptual audio evaluation,”in Acoustics,Speech and SignalProcessing(ICASSP),2016 IEEE International Conference on,2016.

[14]S.-W.Fu,T.-W.Wang,Y.Tsao,X.Lu,and H.Kawai,“End-to-end waveformutterance enhancement for direct evaluation metrics optimization by fullyconvolutional neural networks,”IEEE/ACM Transactions on Audio,Speech andLanguage Processing(TASLP),vol.26,no.9,2018.

[15]Y.Koizumi,K.Niwa,Y.Hioka,K.Koabayashi,and Y.Haneda,“Dnn-basedsource enhancement to increase objective sound quality assessment score,”IEEE/ACM Transactions on Audio,Speech,and Language Processing,2018.

[16]Y.Zhao,B.Xu,R.Giri,and T.Zhang,“Perceptually guided speechenhancement using deep neural networks,”in Acoustics,Speech and SignalProcessing(ICASSP),2018 IEEE International Conference on,2018.

[17]Y.Koizumi,K.Niwa,Y.Hioka,K.Kobayashi,and Y.Haneda,“Dnn-basedsource enhancement self-optimized by reinforcement learning using soundquality measurements,”in Acoustics,Speech and Signal Processing(ICASSP),2017IEEE International Conference on,2017.

[18]J.Jensen and M.S.Pedersen,“Audio processing device comprisingartifact reduction,”US Patent US 9,432,766 B2,Aug.30,2016.

Claims

1.一种用于从音频输入信号生成分离的音频信号的装置，其中所述音频输入信号包括目标音频信号部分和残差音频信号部分，其中所述残差音频信号部分指示所述音频输入信号与所述目标音频信号部分之间的残差，其中所述装置包括：

源分离器(110)，用于确定取决于所述音频输入信号的估计的目标信号，所述估计的目标信号是仅包括所述目标音频信号部分的信号的估计，

确定模块(120)，其中所述确定模块(120)被配置为根据所述估计的目标信号的估计声音质量确定一个或多个结果值，以获得一个或多个参数值，其中所述一个或多个参数值是所述一个或多个结果值、或者取决于所述一个或多个结果值，以及

信号处理器(130)，用于根据所述一个或多个参数值、以及根据所述估计的目标信号和所述音频输入信号和所述估计的残差信号中的至少一个来生成所述分离的音频信号，所述估计的残差信号是仅包括所述残差音频信号部分的信号的估计，

其中，所述信号处理器(130)被配置为根据所述一个或多个参数值、以及根据所述估计的目标信号与所述音频输入信号的线性组合来生成所述分离的音频信号；或者其中，所述信号处理器(130)被配置为根据所述一个或多个参数值、以及根据所述估计的目标信号与所述估计的残差信号的线性组合来生成所述分离的音频信号。

2.根据权利要求1所述的装置，

其中，所述确定模块(120)被配置为根据所述估计的目标信号的所述估计声音质量，将控制参数确定为所述一个或多个参数值，以及

其中，所述信号处理器被配置为根据所述控制参数、以及根据所述估计的目标信号和所述音频输入信号和所述估计的残差信号中的至少一个来确定所述分离的音频信号。

3.根据权利要求2所述的装置，

其中，所述信号处理器(130)被配置为根据下式来确定所述分离的音频信号：

或者，根据下式来确定所述分离的音频信号：

其中y是所述分离的音频信号，

其中是所述估计的目标信号，

其中x是所述音频输入信号，

其中是所述估计的残差信号，

其中p₁是所述控制参数，以及

其中n是索引。

4.根据权利要求2所述的装置，

其中，所述确定模块(120)被配置为根据所述估计的目标信号和所述音频输入信号和所述估计的残差信号中的至少一个估计声音质量值作为所述一个或多个结果值，其中所述声音质量值表示所述估计的目标信号的所述估计声音质量，以及

其中，所述确定模块(120)被配置为根据所述声音质量值确定所述一个或多个参数值。

5.根据权利要求4所述的装置，

其中所述信号处理器(130)被配置为通过确定所述分离的音频信号的第一版本、以及通过修改所述分离的音频信号一次或多次以获得所述分离的音频信号的一个或多个中间版本，来产生所述分离的信号

其中，所述确定模块(120)被配置为根据所述分离的音频信号的一个或多个中间值中的一个，来修改所述声音质量值，以及

其中，所述信号处理器(130)被配置为如果声音质量值大于或等于定义的质量值，则停止修改所述分离的音频信号。

6.根据权利要求1所述的装置，

其中，所述确定模块(120)被配置为根据所述估计的目标信号、以及根据所述音频输入信号和所述估计的残差信号中的至少一个来确定所述一个或多个结果值。

7.根据权利要求1所述的装置，

其中所述确定模块(120)包括人工神经网络(125)，用于根据所述估计的目标信号确定所述一个或多个结果值，其中所述人工神经网络(125)被配置为接收多个输入值，所述多个输入值的每一个取决于所述估计的目标信号和所述估计的残差信号和所述音频输入信号中的至少一个，并且其中所述人工神经网络(125)被配置为将所述一个或多个结果值确定为所述人工神经网络(125)的一个或多个输出值。

8.根据权利要求7所述的装置，

其中所述多个输入值中的每一个取决于所述估计的目标信号和所述估计的残差信号和所述音频输入信号中的至少一个，以及

其中，所述一个或多个结果值指示所述估计的目标信号的所述估计声音质量。

9.根据权利要求7所述的装置，

其中所述多个输入值的每一个取决于所述估计的目标信号和所述估计的残差信号和所述音频输入信号中的至少一个，以及

其中所述一个或多个结果值是所述一个或多个参数值。

10.根据权利要求7所述的装置，

其中所述人工神经网络(125)被配置为通过接收多个训练集来受到训练，其中所述多个训练集的每一个包括所述人工神经网络(125)的多个输入训练值、以及所述人工神经网络(125)的一个或多个输出训练值，其中所述多个输出训练值中的每一个取决于训练目标信号和训练残差信号和训练输入信号中的至少一个，其中所述一个或多个输出训练值的每一个取决于所述训练目标信号的声音质量的估计。

11.根据权利要求10所述的装置，

其中所述训练目标信号的声音质量的所述估计取决于声音质量的一个或多个计算模型。

12.根据权利要求11所述的装置，

其中所述声音质量的所述一个或多个计算模型是以下中的至少一个：

盲源分离评估，

对于音频源分离的感知评估方法，

音频质量的感知评估，

语音质量的感知评估，

虚拟语音质量客观听者音频，

助听器音频质量指标，

助听器语音质量指标，

助听器语音感知指标，以及

短期客观可懂度。

13.根据权利要求7所述的装置，

其中，所述人工神经网络(125)被配置为根据所述估计的目标信号、以及根据所述音频输入信号和所述估计的残差信号中的至少一个来确定所述一个或多个结果值。

14.根据权利要求1所述的装置，

其中，所述信号处理器(130)被配置为根据所述一个或多个参数值、以及根据所述估计的目标信号的后处理来生成所述分离的音频信号。

15.一种用于从音频输入信号生成分离的音频信号的方法，其中所述音频输入信号包括目标音频信号部分和残差音频信号部分，其中所述残差音频信号部分指示所述音频输入信号与所述目标音频信号部分之间的残差，其中所述方法包括：

确定取决于所述音频输入信号的估计的目标信号，所述估计的目标信号是仅包括所述目标音频信号部分的信号的估计，

根据所述估计的目标信号的估计声音质量确定一个或多个结果值，以获得一个或多个参数值，其中所述一个或多个参数值是所述一个或多个结果值、或者取决于所述一个或多个结果值，以及

根据所述一个或多个参数值、以及根据所述估计的目标信号和所述音频输入信号和估计的残差信号中的至少一个来生成所述分离的音频信号，所述估计的残差信号是仅包括所述残差音频信号部分的信号的估计，

其中，根据所述一个或多个参数值、以及根据所述估计的目标信号与所述音频输入信号的线性组合来生成所述分离的音频信号；或者其中，根据所述一个或多个参数值、以及根据所述估计的目标信号与所述估计的残差信号的线性组合来生成所述分离的音频信号。

16.一种非暂时性计算机可读介质，包括计算机可读指令，用于当在计算机或信号处理器上执行时实现权利要求15所述的方法。