CN110998723A

CN110998723A - 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序

Info

Publication number: CN110998723A
Application number: CN201880050189.1A
Authority: CN
Inventors: 木下庆介; 中谷智广; M·德尔克鲁瓦
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-08-04
Filing date: 2018-08-01
Publication date: 2020-04-10
Anticipated expiration: 2038-08-01
Also published as: JPWO2019026973A1; JP6748304B2; US11304000B2; CN110998723B; US20210400383A1; WO2019026973A1

Abstract

信号处理装置(10)是根据由1个以上的麦克风观测到的包含回声的观测信号，估计减少了回声的信号的信号处理装置，其具有：功率估计部(12)，其通过向神经网络输入与观测信号对应的观测特征量，对与观测信号对应的与减少了回声的信号的功率对应的特征量的估计值进行估计，该神经网络被学习为，将包含回声的信号的特征量作为输入，输出与减少了该信号中的回声的信号的功率对应的特征量的估计值；以及回归系数估计部(13)，其使用功率估计部(12)的估计结果对生成观测信号的自回归过程的回归系数进行估计，该估计结果是与功率对应的特征量的估计值。

Description

使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序

技术领域

本发明涉及使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序。

背景技术

当在实际环境中使用麦克风对声音进行拾音时，通常不仅观测到目标声音信号，还观测到各种声音失真(噪声和回声)与目标声音重叠后的信号。这些噪声和回声是使目标声音的清晰度和听取容易度大幅减少的主要原因。另外，还公知如果在收录音中包含这些声音失真，则声音识别精度会大幅减少。

因此，存在从观测声音信号中去除这些声音失真的技术。从该观测声音信号中去除这些声音失真的技术能够用作各种声音信号处理系统的关键技术。例如，从观测声音信号中去除这些声音失真的技术能够用于从在实际环境下拾音的声音中提取目标信号来提高听取容易度的助听系统或声音编辑系统等。另外，从观测声音信号中去除这些声音失真的技术也能够用于对在实际环境下拾音的声音进行高精度地识别的声音识别系统。

近年来，提出了如下的方法(例如，参照非专利文献1)：关于观测信号所包含的清晰声音，假定平均0、方差λ(n，k)的高斯分布(n：帧索引；k：频率索引)，另外，观测信号的生成过程遵循自回归过程，通过重复估计其自回归过程的回归系数，来对用于去除回声的逆滤波进行估计。

现有技术文献

非专利文献

非专利文献1：T.Nakatani，T.Yoshioka，K.Kinoshita，M.Miyoshi and B.-H.Juang，“Speech Dereverberation Based on Variance-Normalized Delayed LinearPrediction”，IEEE Transactions on Audio，Speech，and Language Processing，vol.18(7)，pp.1717-1731，2010.

发明内容

发明要解决的课题

这里，对现有的信号处理装置进行说明。图6是示出现有的信号处理装置的结构的一例的图。如图6所示，现有的信号处理装置10P具有观测特征量计算部11P、功率谱估计部12P、回归系数估计部13P、逆滤波处理部14P以及重复控制部15P。

观测特征量计算部11P根据受理了输入的观测信号对观测信号特征量进行计算。功率估计部12P在重复计算之前将观测特征量计算部11P变换后的观测特征量作为输入，在进入重复循环时将逆滤波处理部14P的处理结果作为输入，对期望信号的功率谱进行计算。回归系数估计部13P使用期望信号的功率谱的估计结果来估计回归系数。逆滤波处理部14P使用估计的回归系数进行逆滤波处理。

在重复计算没有结束的情况下，重复控制部15P将逆滤波处理部14P的逆滤波处理的结果再次输入到功率谱估计部12P。之后，重复需要的次数进行期望信号的功率谱的再估计、基于此的回归系数估计以及逆滤波处理。

但是，在现有的信号处理装置10P中，利用观测信号的功率谱代替包含直接音和初始反射音的声音信号的方差值的初始值来进行回声去除，因此如果观测信号变短，则存在精度减少的问题。

本发明是鉴于上述问题而完成的，其目的在于，提供使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序，其即使在观测信号较短的情况下也能够高精度地进行回声去除。

用于解决课题的手段

为了解决上述课题并达成目的，本发明的信号处理装置，其从由1个以上的麦克风观测到的包含回声的观测信号中估计减少了回声的信号，其特征在于，该信号处理装置具有：第1估计部，其通过向神经网络输入与观测信号对应的观测特征量，对与观测信号对应的与减少了回声的信号的功率对应的特征量的估计值进行估计，其中，该神经网络被学习为，将包含回声的信号的特征量作为输入，输出与减少了该信号中的回声的信号的功率对应的特征量的估计值；以及第2估计部，其使用第1估计部的估计结果，对生成观测信号的自回归过程的回归系数进行估计，其中，该估计结果是与功率对应的特征量的估计值。

发明效果

根据本发明，即使在观测信号较短的情况下，也能够高精度地进行回声去除。

附图说明

图1是对实施方式的信号处理装置的功能结构的一例进行说明的图。

图2是示出图1所示的信号处理装置的主要部分结构的图。

图3是对实施方式的信号处理装置的功能结构的一例进行说明的图。

图4是示出实施方式的回声去除处理的处理步骤的流程图。

图5是示出通过执行程序来实现信号处理装置的计算机的一例的图。

图6是示出现有的信号处理装置的结构的一例的图。

具体实施方式

以下，参照附图对本发明的一个实施方式进行详细说明。另外，本发明不受该实施方式限定。另外，在附图的记载中，对相同部分标注相同的标号进行示出。

【实施方式】

以下，对使用本申请所公开的神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序的实施方式进行说明。以下的实施方式仅示出一例，并不限定本申请公开的技术。另外，以下所示的实施方式及其他实施方式也可以在不矛盾的范围内适当组合。

【实施方式的信号处理装置】

首先，对本实施方式的信号处理装置的结构进行说明。本实施方式的信号处理装置使用能够高精度地进行频谱估计的神经网络来进行与期望信号的功率对应的特征量的估计处理。

图1是对实施方式的信号处理装置的功能结构的一例进行说明的图。如图1所示，实施方式的信号处理装置10具有观测特征量计算部11、功率估计部12(第1估计部)、回归系数估计部13(第2估计部)、逆滤波处理部14以及重复控制部15。另外，信号处理装置10例如向包含ROM(Read Only Memory：只读存储器)、RAM(Random Access Memory：随机存取存储器)、CPU(Central Processing Unit：中央处理单元)等的计算机等中读入规定的程序，并通过CPU执行规定的程序来实现。

观测特征量计算部11将作为输入信号的观测信号变换为观测特征量。具体而言，观测特征量计算部11将由1个以上的麦克风观测到的包含回声的观测信号分别变换为观测特征量。观测特征量计算部11将时域的信号作为输入，根据该输入的信号计算观测特征量，并输出该观测特征量。观测特征量计算部11将观测特征量输出到功率估计部12、回归系数估计部13以及逆滤波处理部14。在本实施方式中，将观测信号的总称设为x_m(t)，将观测特征量的总称设为x(n)。t是时间的索引，m是麦克风的索引，n是短时间时间帧的索引。这里，假设在观测信号中包含1人以上的说话者的声音和除声音以外的声音失真(噪声和回声等)。

功率估计部12根据观测特征量并使用学习完毕的神经网络，对与期望信号的每个时刻的功率对应的特征量进行估计。功率估计部12使用学习完毕的神经网络并根据由观测特征量计算部11得到的1个以上的观测特征量，对与作为抑制了回声的信号的期望信号的功率对应的特征量进行计算。这里，与功率对应的特征量例如是功率谱或时域的观测特征量的每帧的功率的平均值等。

即，功率估计部12使用学习完毕的神经网络并根据观测特征量x(n)，对与对应于该观测特征量x(n)的包含直接音和初始反射音的声音的功率对应的特征量(例如，功率谱)、即与期望信号的功率对应的特征量进行估计。或者，功率估计部12使用学习完毕的神经网络对也考虑了包含直接音和初始反射音的声音的麦克风间相关的空间相关矩阵(详细参照参考文献1的5章。)进行估计。除此之外，也可以将由规定时间区间的时域的观测特征量的功率的平均值构成的序列用作与功率对应的特征量。

另外，这里，将期望信号假定为包含直接音和初始反射音的声音的信号而进行了说明，但并不限定于此。总之，只要将与观测信号相比抑制了回声的信号设为期望信号即可。

在本实施方式中，以使用功率谱作为与功率对应的特征量的情况为例进行说明，将该期望信号的功率谱的总称设为λ(n)。另外，将神经网络设为F【·】。

功率估计部12例如使用Long Short-Term Memory(LSTM)循环型神经网络。当然，功率估计部12所使用的神经网络的形状可以是全结合型、循环型以及双向循环型神经网络等任意形状。

回归系数估计部13使用与期望信号的功率对应的特征量的估计值来对线性预测滤波器进行估计。回归系数估计部13使用期望信号的功率谱λ(n)来对线性预测滤波器进行估计。具体而言，回归系数估计部13使用期望信号的功率谱对线性预测滤波器进行估计，以使预测残差遵循平均为0、方差为期望信号的功率谱的时变高斯分布。该线性预测滤波器的滤波系数为“回归系数”。具体而言，回归系数估计部13根据所估计的期望信号的功率谱λ(n)和观测特征量x(n)对回归系数进行估计。在本实施方式中，将回归系数的总称设为g(k)(关于回归系数估计部的详细情况，参照参考文献1(T.Yoshioka，T.Nakatani，“Generalization of Multi-Channel Linear Prediction Methods for Blind MIMOImpulse Response Shortening”，IEEE Transactions on Audio，Speech，and LanguageProcessing，vol.20(10)，pp.2707-2720，2012.))。

逆滤波处理部14使用回归系数估计部13估计出的线性预测滤波器来进行逆滤波处理。逆滤波处理部14使用回归系数g(k)和观测特征量x(n)来对观测特征量进行逆滤波处理，从而求出回声去除信号d。在本实施方式中，将回声去除信号d的总称设为d(n)。

重复控制部15进行根据规定的结束条件重复如下处理的控制：由功率估计部12对期望信号的功率进行估计的处理、由回归系数估计部13对线性预测滤波器进行估计的处理、以及由逆滤波处理部14进行的逆滤波处理。即，重复控制部15进行以满足规定的结束条件所需要的次数重复如下处理的控制：由功率谱估计部12对期望信号的功率谱进行计算的处理、由回归系数估计部13对使用了与期望信号的功率对应的特征量的线性预测滤波器进行计算的处理、以及由逆滤波处理部14对观测特征量进行的逆滤波处理。满足规定的结束条件所需要的次数例如是预先设定的规定的次数或所使用的参数中的至少任意一个达到规定的阈值为止所需要的次数。

在没有达到规定的条件的情况下，或者在重复次数小于规定次数的情况下，重复控制部15将由逆滤波处理部14进行的逆滤波处理的结果(回声去除信号d(n))再次输入到功率谱估计部12。

即，在重复循环时，功率估计部12通过重复控制部15的控制将回声去除信号d(n)作为输入，并使用学习完成的神经网络F【·】对与对应于该回声去除信号d(n)的期望信号的功率对应的特征量的估计值(例如，功率谱λ(n))进行估计。之后，回归系数估计部13根据与回声去除信号d(n)对应的期望信号的功率谱λ(n)和观测特征量x(n)来对回归系数g(k)进行估计。接下来，逆滤波处理部14使用回归系数估计部13估计出的回归系数g(k)来进行逆滤波处理，并重新输出回声去除信号d(n)。

与此相对，在满足规定的结束条件的情况下，或者在重复次数达到规定次数的情况下，重复控制部15将由逆滤波处理部14进行的逆滤波处理的结果作为回声去除信号d(n)输出。这样，在本实施方式中，重复控制部15执行与期望信号的功率对应的特征量的再估计，并基于此进行重复进行回归系数估计和逆滤波处理的控制。

【本实施方式中的数理的背景】

首先，对本实施方式中的数理背景进行叙述。本实施方式的信号处理方法是如下的方法：关于观测信号所包含的清晰声音，假定平均0、方差λ(n，k)的高斯分布(n：帧索引；k：频率索引)，另外，观测信号的生成过程遵循自回归过程，通过重复估计其自回归过程的回归系数，来估计用于去除回声的逆滤波。

首先，将观测信号x_m(t)作为输入信号进行说明。该观测信号x_m(t)被观测特征量计算部11变换为观测特征量x_m(n，k)。如以下的(1)式所示，假定该观测特征量x_m(n，k)由清晰声音信号s(n，k)与音源和第m个麦克风之间的脉冲响应h_m(l，k)的卷积来表示。

【数1】

在(1)式中，“*”表示变量的复共轭。如以下的(2)式所示，该观测过程能够等价地表示为使用了最佳回归系数g_m(l，k)的自回归过程。

【数2】

(2)式的第二项表示观测信号中的后部回声部分，第一项表示为除此以外的部分、即包含直接音和初始反射音的信号。另外，如以下的(3)式所示，(2)式能够以矩阵形式表示。另外，在之后的式子中，英文字母的小写字母的粗体字(例如(3)式中的粗体字的“g”、“x”)表示矩阵。另外，H表示共轭转置。T表示转置。另外，(3)式的各变量如以下的(4)～(7)式所示。

【数3】

x_m(n，k)＝d_m(n，k)+g(k)^Hx(n-D，k)…(3)

【数4】

x_m(n，k)＝[x_m(n，k)，...，x_m(n-L+1，k)]^T…(4)

【数5】

x(n，k)＝[(x₁(n，k))^T，...，(x_M(n，k))^T]^T…(5)

【数6】

g_m(k)＝[g_m(D，k)，...，g_m(D+L-1，k)]^T…(6)

【数7】

g(n)＝[(g₁(k))^T，...，(g_M(k))^T]^T…(7)

(3)式假如能够求出最佳的回归系数，则意味着能够如以下的(8)式那样进行司声去除，而取出包含直接音和初始反射音的信号。

【数8】

并且，如以下的(9)式所示，假定回声去除信号d(n，k)遵循平均0、方差λ(n，k)的高斯分布。

【数9】

如果使用该概率模型，则对于各频率k，关于1至N的观测，能够定义如以下的(10)、(11)式所示那样的似然函数。

【数10】

【数11】

λ(k)＝[λ(1，k)，...，λ(N，k)]^T…(11)

最终，能够得到使该似然函数最大化的最佳的g(k)和λ(k)，作为使以下的(12)式最小化的结果。

【数12】

作为具体的计算步骤，回归系数估计部13通过进行使用以下的(13)～(15)式的运算处理A来求出回归系数g(k)。然后，逆滤波处理部14通过进行使用上述(4)式的运算处理B来求出回声去除信号d(n，k)。另外，R是加权协方差矩阵，r是加权相关矢量。

【数13】

【数14】

【数15】

这里，在本实施方式中，功率估计部12使用学习完毕的神经网络F【·】对应该应用于(14)、(15)式的期望信号的功率谱(λ(n，k))进行估计。

该功率估计部12所使用的神经网络F【·】的输入输出关系的概要如以下的(16)～(18)式所示。F【·】的输入是包含回声的声音的观测特征量x(n)。并且，F【·】的输出是包含直接音和初始反射音的声音的功率谱、即期望信号的功率谱λ(n)。

【数16】

【数17】

λ(n)＝[λ(n，l)，...，λ(n，K)]…(17)

【数18】

x(n)＝[x(n，1)，...，x(n，K)]…(18)

在本实施方式中，功率估计部12将观测特征量x(n)作为输入，将从(16)～(18)式所示的神经网络F【·】输出的期望信号的功率谱λ(n)输入到回归系数估计部13。或者，在重复循环的处理时，功率估计部12将作为逆滤波处理部14的结果的回声去除信号d(n)作为输入，将从(16)～(18)式所示的神经网络F【·】输出的期望信号的功率谱λ(n)输入到回归系数估计部13。

回归系数估计部13将从神经网络F【·】输出的期望信号的功率谱λ(n)代入(14)、(15)式，并使用(13)式对回归系数g(k)进行估计。接下来，在本实施方式中，逆滤波处理部14使用估计出的回归系数g(k)，并应用(4)式进行基于线性的逆滤波的回声去除，从而得到回声去除信号d(n，k)。

因此，最佳的回归系数g(k)和最佳的回声去除信号d(n，k)能够通过重复进行如下的处理来求出：(16)～(18)式所示的神经网络F【·】的期望信号的功率谱估计处理、使用了对回归系数g(k)进行估计的(13)～(15)式的演算处理A、以及使用了用于得到回声去除信号d(n，k)的(4)式的运算处理B。

这样，在本实施方式中，通过使用神经网络对与期望信号的功率对应的特征量(例如功率谱)进行估计，能够进行高精度的功率谱估计。因此，在本实施方式中，即使在观测信号长度较短的情况下、即N的值较小的情况下，也能够使用(14)、(15)式对接近理想值的R和r进行计算。

这里，通常公知即使使用从神经网络F【·】输出的回声去除音，也无法改善声音识别性能。与此相对，在本实施方式中，当通过神经网络F【·】进行回声去除时，基于此设计逆滤波，并进行基于逆滤波的回声去除。这样，在本实施方式中，根据神经网络F【·】的输出对线性逆滤波进行估计，并进行线性的回声去除，从而改善声音识别性能。

【回声去除处理】

该信号处理装置10从输入的观测信号中高精度地去除回声，将观测信号所包含的以集音为目的的声音清晰化并输出。参照图1对由信号处理装置10进行的回声去除处理(测试处理)的流程进行说明。

首先，在测试处理中，当输入时域的信号(观测信号)时，如(1)式所示，观测特征量计算部11计算观测特征量并输出其特征量。例如，观测特征量计算部11将输入的时域的信号分割为30ms左右的短时间帧，并对分割后的各短时间帧的数据进行短时间傅里叶变换，从而输出复频谱x(n，k)。

接下来，功率估计部12将观测特征量计算部11计算出的观测特征量作为输入，使用(16)～(18)式所示的学习完毕的神经网络F【·】对与从观测信号中减少了回声的信号(例如，包含直接音和初始反射音的声音信号)的功率对应的特征量(例如，功率谱λ(n))进行估计。在神经网络的输入是复频谱x(n，k)的情况下，例如在神经网络的输入层中，明确地加入取输入的值的绝对值的平方而将该值变换为实数值的处理。由此，在功率估计部12中，即使神经网络的输入是复数，也能够输出与作为实数值的功率对应的特征量。

之后，将与作为来自功率估计部12的输出的功率对应的特征量(在该例中为功率谱λ(n))输入到回归系数估计部13。回归系数估计部13将输入的功率谱λ(n)代入(14)、(15)式，使用(13)式对回归系数g(k)进行估计并输出回归系数g(k)。

逆滤波处理部14将该回归系数g(k)作为输入，使用(4)式进行基于线性的逆滤波的回声去除，从而输出回声去除信号d(n，k)。

之后，在没有满足规定的结束条件的情况下，或者在重复次数小于规定次数的情况下，重复控制部15将回声去除信号d(n，k)输入到功率估计部12，改善与期望信号功率对应的特征量的估计精度。然后，使用改善后的与期望信号功率对应的特征量再次进行由回归系数估计部13进行的回归系数估计处理和由逆滤波处理部14进行的逆滤波处理。即，重复与图1的箭头Y1所示的重复循环相当的处理。

另一方面，在满足规定的结束条件的情况下，或者在重复次数达到规定次数的情况下，重复控制部15充分地进行了回声去除，并且如图1的箭头Y2所示，输出回声去除信号d(n，k)。

【神经网络的学习处理】

在信号处理装置10中，在测试前的事先学习时，使用包含回声的声音的特征量和与此对应的包含直接音和初始反射音的声音的特征量(正确信号)这一对，使神经网络F【·】的参数优化。预先准备由学习用的观测信号(包含回声的声音)和与其对应的包含直接音和初始反射音的声音(正确信号)这一对的集合构成的学习用数据，并使用该学习用数据进行学习。

因此，对信号处理装置10的学习处理的流程进行说明。图2是示出图1所示的信号处理装置10的主要部分结构的图。为了说明，图2示出信号处理装置10的主要部分。

如图2所示，对功率估计部12的输入是观测特征量计算部11对学习用数据中的学习用观测信号(包含回声的声音)进行计算后的观测特征量。包含回声的声音例如是包含清晰声音和回声的声音。

并且，用于与功率谱估计部12中的神经网络的输出进行比较的示教信号是与从输入的包含回声的观测信号中减少了回声的信号的功率对应的特征量。例如是与输入的包含回声的声音对应的包含直接音和初始反射音的声音的功率谱数据。这是在学习用数据中作为正确信号被预先给出的。

在学习时，向功率估计部12中的神经网络输入根据学习用观测信号求出的包含上述回声的声音的观测特征量，并得到输出。然后，更新神经网络的参数，以使该输出与示教信号(学习用数据中的正确信号)之间的平方误差最小。总之，只要更新神经网络的参数以使神经网络的输出与正确信号接近即可，也可以使用平方误差以外的距离作为基准。

具体而言，在设示教信号为s、神经网络为F【·；θ】、神经网络的参数为θ、神经网络的输入为x的情况下，在学习时，更新θ以使|s-F【x；θ】|^2的值最小。

另外，图3是对实施方式的信号处理装置的功能结构的一例进行说明的图。在图3所示的信号处理装置10A中，还设置有对作为神经网络优化基准的成本进行计算的成本计算部20。

在图3所示的信号处理装置10A中，来自神经网络的输出被传递到回归系数估计部13，从而计算回归系数。然后，在信号处理装置10A中，在逆滤波处理部14中根据回归系数对观测特征量进行逆滤波处理，并且将逆滤波计算的结果输入到成本计算部20。

成本计算部20根据逆滤波处理后的信号和作为学习用数据被提供的正确信号，对神经网络优化基准的成本进行计算。

而且，在信号处理装置10A中，使用误差逆传播法更新神经网络内的参数，以使其成本比参数更新前小。

在图2中，正确信号是功率估计部的输出值的正确，但该例中的正确信号根据最终的目的(使用功率估计部的输出对什么进行计算)而不同。以下示出几个在成本计算部20内计算的成本和正确信号的例子。

例如，假设成本计算部20是能够利用神经网络表示的声音识别系统，正确信号是音素标签。

在该情况下，学习(即，更新)功率估计部12，以使由成本计算部20(即，声音识别系统)估计的音素标签接近正确的音素标签。

另外，假设成本计算部20是能够利用神经网络表示的噪声抑制系统，正确信号是不包含噪声和回声的清晰声音信号的特征量。

在该情况下，学习(即，更新)功率估计部12，以使噪声抑制的结果尽可能接近作为正确信号的清晰声音信号的特征。

通过采用这样的结构，能够使神经网络的参数学习，以能够根据最终的目的输出更适当的功率谱估计值。

【回声去除处理的处理步骤】

接下来，对信号处理装置10进行的回声去除处理的处理步骤进行说明。图4是示出实施方式的回声去除处理的处理步骤的流程图。这里，以规定的结束条件是“达到规定的重复次数”的情况为例，对具体处理进行说明。

如图4所示，首先，当输入观测信号时(步骤S1)，观测特征量计算部11进行对观测信号的观测特征量如(1)式那样进行计算的观测特征量计算处理(步骤S2)。

然后，重复控制部15将重复次数n初始化并设n＝1(步骤S3)。功率估计部12将观测特征量作为输入，使用(16)～(18)式所示的学习完毕的神经网络F【·】进行对期望信号的功率谱λ(n)进行估计的功率估计处理(步骤S4)。

接下来，回归系数估计部13使用期望信号的功率谱λ(n)进行对线性预测滤波器进行估计的回归系数估计处理(步骤S5)。在该情况下，回归系数估计部13使用(13)～(15)式对回归系数g(k)进行估计。然后，逆滤波处理部14使用回归系数估计部13估计出的线性预测滤波器进行逆滤波处理(步骤S6)。在该情况下，逆滤波处理部14根据回归系数g(k)使用(4)式进行逆滤波处理，从而求出回声去除信号d(n)。

重复控制部15对重复次数n是否达到规定次数N、即是否n＝N进行判定(步骤S7)。重复控制部15在判定为不是n＝N的情况下(步骤S7：否)，设n＝n+1(步骤S8)并返回步骤S4。即，重复控制部15将作为逆滤波处理部14的输出的回声去除信号d(n)输入到功率估计部12，执行步骤S4～步骤S6的重复循环处理。

重复控制部15在判定为n＝N的情况下(步骤S7：是)，将由逆滤波处理部14进行的逆滤波处理的结果作为回声去除信号d(n)输出(步骤S9)。

【现有技术的数理背景】

这里，对现有技术的数理背景进行说明。在现有的信号处理装置10P(参照图6)中，观测特征量计算部11P根据受理了输入的观测信号如(1)式那样对观测信号特征量进行计算。功率谱估计部12P在重复计算之前将观测特征量计算部11P变换后的观测特征量作为输入，在进入重复循环时将逆滤波处理部14P的处理结果作为输入，对期望信号的功率谱进行计算。在进入重复循环时，现有的功率谱估计部12P使用以下的(19)式求出期望信号的功率谱。另外，在重复计算之前，将期望信号的功率谱设为观测信号的功率谱、即|x_m(n，k)|²。

【数19】

而且，在现有的信号处理装置10P中，回归系数估计部13P根据期望信号的功率谱的估计结果使用(13)～(15)式对回归系数进行估计，并且逆滤波处理部14P根据估计出的回归系数使用(4)式进行逆滤波处理。

在该现有的信号处理装置10P中，公知如下情况：在观测样本数N较大的情况下有效地动作，另一方面，通常，如果观测信号长度变短，则精度减少。即，在现有的信号处理装置10P中，公知如果N变小，则精度减少。这是因为，如上所示那样，现有的信号处理装置10P利用观测信号的功率谱、即|x_m(n，k)|²代用包含直接音和初始反射音的声音信号的方差值λ(n，k)的初始值。

理想的是，方差值λ(n，k)必须与包含直接音和初始反射音的声音信号的功率谱一致。与此相对，现有的信号处理装置10P难以求出该功率谱，因此作为初始值，代用近似精度较差的观测信号的功率谱。

现有的信号处理装置10P为了尽可能地排除由该精度较低的初始值带来的影响，增加用于(14)、(15)式的R和r的计算的平均化的次数(相当于N)，而得到接近理想值的R和r。并且，作为其结果，信号处理装置10P使用(13)式对维持了某种程度的精度的回归系数g(k)进行估计。

但是，在现有的信号处理装置10P中，在平均化次数较少的情况(N的值较小的情况)下，λ(n，k)所包含的误差的影响直接影响(14)、(15)式的R和r的计算，因而无法求出高精度的回归系数g(k)。现有的信号处理装置10P存在如下的问题：在只能求出精度较差的回归系数g(k)的情况下，即使重复进行对回归系数进行估计的处理和逆滤波处理，最终也无法得到高精度的λ(n，k)，因而无法进行高精度的回声抑制。

与此相对，在本发明中，通过利用神经网络对与观测信号的功率对应的特征量进行估计，能够得到与比以往精度高的功率对应的特征量的初始值。由此，即使通过较少的平均化次数，也能够估计高精度的回归系数g(k)。

【评价实验】

以对该实施方式的声音强调处理的性能进行评价为目的进行了评价实验。在本评价实验中，使用了回声下声音语料库REVERB。在REVERB中准备了包含各种回声的学习数据，因此对于该所有数据，预先计算观测信号特征量和与之对应的期望信号(包含直接音和初始反射音的声音)的特征量，并将其作为学习数据集，而对神经网络的参数进行了优化。

另外，神经网络的形状可以是全结合型、循环型、双向循环型神经网络等任意形状，但在这里使用Long Short-Term Memory(LSTM)循环型神经网络。在使用学习数据优化参数之后，使用REVERB的测试数据(包含与学习数据不同的回声、说话者)进行方法的评价。测试数据作为REVERB的开发集和评价集。

另外，为了评价性能如何根据观测信号长度((14)、(15)式中的N值)而发生变化，研究出离线处理和在线处理这两个处理。在离线处理中，假定能够将一个发声所有的数据用于处理，则N的值相当于一个发声的发声长度。

另一方面，在在线处理中，无法将一个发声所有的数据用于处理。具体而言，在在线处理中，从发声的开头部按2秒读入数据，并每2秒进行回声去除处理。因此，(14)、(15)式中的N比一个发声的发生长度短2秒。其结果为，预想到如下情况：在在线处理的情况下，能够在(14)、(15)式中使用的平均化次数减少，在现有的信号处理装置中性能减少。

实际上，使用本实施方式的信号处理装置10和现有的信号处理装置10P分别进行回声去除，对回声去除后的声音进行声音识别时的单词错误率如以下的表1所示。

【表1】

方法	离线/在线	开发集	评价集
				观测信号		23.4％	26.2％
现有	离线	20.3％	19.1％
				本实施方式	离线	19.3％	18.3％
现有	在线	21.3％	19.9％
				本实施方式	在线	19.2％	18.4％

其结果为，如表1所示，可知本实施方式的信号处理装置10在离线、在线这两种情况下达成比现有的信号处理装置10P低的单词错误率。

【实施方式的效果】

如上述评价实验的结果所示，根据本实施方式的信号处理装置10，使用能够高精度地进行频谱估计的神经网络对期望信号的功率谱进行估计，因此即使在观测信号较短的情况下，也能够高精度地进行回声去除。

另外，在本实施方式中，对批处理的例子进行了说明，但并不限于此。例如，如以往实施的那样，也可以对规定时间(例如，10msec)的每帧应用在本实施方式中说明的信号处理。

另外，即使在不是傅里叶变换区域的区域(例如，子带区域等)中，也能够执行在本实施方式中说明的信号处理。

【关于实施方式的系统结构】

图1所示的信号处理装置10的各结构要素是功能概念性的，不一定需要在物理上如图示那样构成。即，信号处理装置10的功能的分散和联合的具体方式不限于图示的方式，能够将其全部或者一部分根据各种负载或使用状况等以任意单位在功能上或物理上的分散或联合而构成。

另外，在信号处理装置10中进行的各处理也可以全部或者任意一部分通过由CPU和CPU分析执行的程序来实现。另外，在信号处理装置10中进行的各处理也可以作为基于有线逻辑的硬件来实现。

另外，在实施方式中说明的各处理中，也可以手动进行作为自动进行的处理而说明的处理的全部或一部分。或者，也可以以公知的方法自动进行作为手动进行的处理而说明的处理的全部或一部分。此外，对于上述和图示的处理步骤、控制步骤、具体名称、各种数据和参数的信息，除了特别记载的情况之外，能够进行适当变更。

【程序】

图5是示出通过执行程序来实现信号处理装置10的计算机的一例的图。计算机1000例如具有存储器1010和CPU1020。另外，计算机1000具有硬盘驱动器接口1030、磁盘驱动器接口1040、串行端口接口1050、视频适配器1060以及网络接口1070。这些各部分通过总线1080连接。

存储器1010包含ROM1011和RAM1012。ROM1011例如存储BIOS(Basic Input OutputSystem：基本输入输出系统)等引导程序。硬盘驱动器接口1030与硬盘驱动器1090连接。磁盘驱动器接口1040与磁盘驱动器1100连接。例如磁盘或光盘等能够装卸的存储介质插入于磁盘驱动器1100。串行端口接口1050例如与鼠标1110和键盘1120连接。视频适配器1060例如与显示器1130连接。

硬盘驱动器1090例如存储OS1091、应用程序1092、程序模块1093以及程序数据1094。即，对信号处理装置10的各处理进行规定的程序被安装为记述有能够通过计算机1000执行的代码的程序模块1093。程序模块1093例如存储在硬盘驱动器1090中。例如，用于执行与信号处理装置10中的功能结构相同的处理的程序模块1093存储在硬盘驱动器1090中。另外，硬盘驱动器1090也可以由SSD(Solid State Drive：固态驱动器)代替。

另外，在上述实施方式的处理中使用的设定数据作为程序数据1094例如存储在存储器1010或硬盘驱动器1090中。并且，CPU1020根据需要将存储在存储器1010或硬盘驱动器1090中的程序模块1093或程序数据1094读出到RAM1012中来执行。

另外，程序模块1093和程序数据1094不限于存储在硬盘驱动器1090中的情况，例如也可以存储在能够装卸的存储介质中，经由磁盘驱动器1100等由CPU1020读出。或者，程序模块1093和程序数据1094也可以存储在经由网络(LAN、WAN等)连接的其他计算机中。并且，程序模块1093和程序数据1094也可以由CPU1020从其他计算机中经由网络接口1070读出。

以上，对应用了由本发明人完成的发明的实施方式进行了说明，但本发明不受基于本实施方式构成本发明的公开的一部分的描述和附图限定。即，本领域技术人员等根据本实施方式而完成的其他实施方式、实施例以及运用技术等均包含在本发明的范畴内。

标号说明

10、10A、10P：信号处理装置；11、11P：观测特征量计算部；12：功率估计部；12P：功率谱估计部；13、13P：回归系数估计部；14、14P：逆滤波处理部；15、15P：重复控制部；20：成本计算部。

Claims

1.一种使用神经网络的信号处理装置，其根据由1个以上的麦克风观测到的包含回声的观测信号，估计减少了回声的信号，该信号处理装置的特征在于，具有：

第1估计部，其通过向神经网络输入与所述观测信号对应的观测特征量，对与所述观测信号对应的与减少了所述回声的信号的功率对应的特征量的估计值进行估计，其中，该神经网络被学习为，将包含回声的信号的特征量作为输入，输出与减少了该信号中的回声的信号的功率对应的特征量的估计值；以及

第2估计部，其使用所述第1估计部的估计结果，对生成所述观测信号的自回归过程的回归系数进行估计，其中，该估计结果是与功率对应的特征量的估计值。

2.根据权利要求1所述的使用神经网络的信号处理装置，其特征在于，

所述第2估计部将线性预测滤波器的滤波系数估计为所述回归系数，该线性预测滤波器的预测残差遵循平均为0、方差为期望信号的功率的时变的概率分布。

3.根据权利要求1所述的使用神经网络的信号处理装置，其特征在于，

所述第2估计部将线性预测滤波器的滤波系数估计为所述回归系数，该线性预测滤波器的预测残差遵循平均为0、方差为期望信号的功率的高斯分布。

4.根据权利要求2或3所述的使用神经网络的信号处理装置，其特征在于，

该使用神经网络的信号处理装置还具有逆滤波处理部，该逆滤波处理部使用所述线性预测滤波器对观测特征量进行逆滤波处理。

5.根据权利要求4所述的使用神经网络的信号处理装置，其特征在于，

该使用神经网络的信号处理装置还具有重复控制部，该重复控制部将如下处理进行重复需要次数的控制：所述第1估计部对期望信号的功率进行估计的处理、所述第2估计部对线性预测滤波器进行估计的处理、以及由所述逆滤波处理部进行的逆滤波处理。

6.根据权利要求1至5中的任意一项所述的使用神经网络的信号处理装置，其特征在于，

所述第1估计部中的所述神经网络是循环型神经网络，

所述神经网络包含层，该层通过取所述神经网络的输入的值的绝对值的平方而将该值变换为实数值。

7.一种使用神经网络的信号处理方法，该信号处理方法由信号处理装置执行，

该信号处理装置根据由1个以上的麦克风观测到的包含回声的观测信号，估计减少了回声的信号，

该信号处理方法的特征在于，包含：

第1估计步骤，通过向神经网络输入与所述观测信号对应的观测特征量，对与所述观测信号对应的与减少了所述回声的信号的功率对应的特征量的估计值进行估计，其中，该神经网络被学习为，将包含回声的信号的特征量作为输入，输出与减少了该信号中的回声的信号的功率对应的特征量的估计值；以及

第2估计步骤，使用所述第1估计步骤的估计结果，对生成所述观测信号的自回归过程的回归系数进行估计，其中，该估计结果是与功率对应的特征量的估计值。

8.一种信号处理程序，其特征在于，

该信号处理程序用于使计算机作为使用了权利要求1至6中的任意一项所述的神经网络的信号处理装置进行工作。