CN108604452B

CN108604452B - 声音信号增强装置

Info

Publication number: CN108604452B
Application number: CN201680081212.4A
Authority: CN
Inventors: 古田训
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-02-15
Filing date: 2016-02-15
Publication date: 2022-08-02
Anticipated expiration: 2036-02-15
Also published as: US20180374497A1; JP6279181B2; DE112016006218B4; US10741195B2; CN108604452A; JPWO2017141317A1; WO2017141317A1; DE112016006218T5

Abstract

第1信号加权部(2)输出根据混入有目标信号和噪声的输入信号对目标信号或噪声的特征进行加权后的信号。神经网络运算部(4)使用耦合系数输出目标信号的增强信号。逆滤波器部(6)输出根据增强信号解除目标信号或噪声的特征的加权后的信号。第2信号加权部(9)输出针对示教信号对目标信号或噪声的特征进行加权后的信号。误差评价部(11)输出使得由第2信号加权部(9)加权后的信号与神经网络运算部(4)的输出信号之间的学习误差为设定值以下的值的耦合系数。

Description

声音信号增强装置

技术领域

本发明涉及通过抑制输入信号中叠加的目标信号以外的无用信号来增强目标信号的声音信号增强装置。

背景技术

伴随近年来的数字信号处理技术的进展，基于移动电话的室外的语音通话、汽车内的免提语音通话和基于语音识别的免提操作广泛普及。并且，还开发出捕捉人发出的惨叫或怒号或者机器发出的异常音或振动进行检测的自动监视系统。

多数情况下，实现这些功能的装置在室外或工厂等噪音环境下或扬声器等中产生的声音信号大量地绕回到麦克风的高回波环境下使用，因此，与目标信号一起，背景噪音或声音回波信号等无用信号也被输入到以麦克风或振动传感器等为代表的声音变换器，导致通话语音的劣化和语音识别率、异常音检测率的降低等。因此，为了实现舒适的语音通话和高精度的语音识别、异常音检测，需要抑制输入信号中混入的目标信号以外的无用信号(以下将该无用信号称作“噪声”)而仅增强目标信号的声音信号增强装置。

以往，作为仅增强上述目标信号的方法，存在使用神经网络的方法(例如参照专利文献1)。该现有方法通过神经网络改善输入信号的SN比，由此增强目标信号。

现有技术文献

专利文献

专利文献1：日本特开平5-232986号公报

发明内容

发明要解决的课题

神经网络具有分别包含多个耦合元件的多个处理层。在各层间的耦合元件之间设定表示耦合元件间的耦合强度的权重系数(称作耦合系数)，但是，需要根据用途事前预先初始设定神经网络的耦合系数，将该初始设定称作神经网络学习。在一般的神经网络学习中，将神经网络运算结果与示教信号数据之差定义为学习误差，通过反向传播法等反复改变耦合系数，使得该学习误差的平方和最小。

一般而言，在神经网络中，使用大量的学习数据进行学习，由此，推进各耦合元件间的耦合系数的优化，其结果是，信号增强精度提高。但是，在现实中，针对目标信号或噪声的产生频度较少的信号，例如惨叫或怒号等通常不发出的语音、伴随地震等自然灾害的声音、枪声等突发产生的干扰音、作为机器故障预兆的异常音和振动、机器异常时输出的警告音，收集大量的学习数据，需要庞大的时间和费用，存在由于产生警告音而必须使生产线等停止等大量制约，只能收集少量的学习数据。因此，在上述专利文献1记载的现有方法中，利用这种不充分的学习数据无法好好进行神经网络学习，存在增强精度降低这样的课题。

本发明正是为了解决该问题而完成的，其目的在于，提供在学习数据较少的状况下也能够得到高品质的声音信号的增强信号的声音信号增强装置。

用于解决课题的手段

本发明的声音信号增强装置具有：第1信号加权部，其输出根据混入有目标信号和噪声的输入信号对目标信号的特征进行加权后的信号；神经网络运算部，其输出针对由第1信号加权部加权后的信号使用耦合系数增强目标信号而成的增强信号；逆滤波器部，其根据增强信号解除目标信号的特征的加权；第2信号加权部，其输出针对用于进行神经网络学习的示教信号对目标信号的特征进行加权后的信号；以及误差评价部，其输出使得由第2信号加权部加权后的信号与神经网络运算部的输出信号之间的学习误差为设定值以下的值的耦合系数。

发明效果

本发明的声音信号增强装置使用输出根据混入有目标信号和噪声的输入信号对目标信号的特征进行加权后的信号的第1信号加权部、以及输出针对用于进行神经网络学习的示教信号对目标信号的特征进行加权后的信号的第2信号加权部，对目标信号的特征进行加权。由此，在学习数据较少的状况下也能够得到高品质的声音信号的增强信号。

附图说明

图1是本发明的实施方式1的声音信号增强装置的结构图。

图2A是目标信号的谱的说明图，图2B是在目标信号中混入有噪声时的谱的说明图，图2C是基于现有方法的增强信号的谱的说明图，图2D是基于实施方式1的增强信号的谱的说明图。

图3是示出本发明的实施方式1的声音信号增强装置的声音信号增强处理的步骤的一例的流程图。

图4是示出本发明的实施方式1的声音信号增强装置的神经网络学习的步骤的一例的流程图。

图5是示出本发明的实施方式1的声音信号增强装置的硬件结构的框图。

图6是示出本发明的实施方式1的声音信号增强装置的使用计算机实现时的硬件结构的框图。

图7是本发明的实施方式2的声音信号增强装置的结构图。

图8是本发明的实施方式3的声音信号增强装置的结构图。

具体实施方式

下面，为了更加详细地说明本发明，根据附图对用于实施本发明的方式进行说明。

实施方式1

图1是示出本发明的实施方式1的声音信号增强装置的概略结构的框图。图1所示的声音信号增强装置具有信号输入部1、第1信号加权部2、第1傅里叶变换部3、神经网络运算部4、傅里叶逆变换部5、逆滤波器部6、信号输出部7、示教信号输出部8、第2信号加权部9、第2傅里叶变换部10以及误差评价部11。

作为该声音信号增强装置的输入，是通过麦克风(未图示)或振动传感器(未图示)等声音变换器取入的语音、音乐、信号音或噪声等声音信号。对这些声音信号进行A/D(模拟/数字)变换后，以规定的采样频率(例如8kHz)进行采样，并且，变换成以帧为单位(例如10ms)分割后的信号进行输入。这里，例示语音作为目标信号即声音信号来进行动作说明。

下面，根据图1对实施方式1的声音信号增强装置的结构及其动作原理进行说明。

信号输入部1以规定的帧间隔取入上述这种声音信号，将其作为时域信号即输入信号x_n(t)输出到第1信号加权部2。这里，n表示对输入信号进行帧分割时的帧编号，t表示采样中的离散时间编号。

第1信号加权部2是对良好地表现输入信号x_n(t)中包含的目标信号的特征的部分进行加权处理的处理部。在本实施方式的信号加权处理中，例如能够应用为了增强语音谱的重要峰值成分(谱振幅较大的成分)即所谓共振峰而使用的共振峰增强。

作为共振峰增强的方法，例如，根据加汉宁窗的语音信号求出自相关系数，实施频带扩展处理后，通过莱文森-德宾(Levinson-Durbin)法求出12次的线性预测系数，根据该线性预测系数求出共振峰增强系数。然后，使其通过使用已得到的共振峰增强系数的ARMA(Auto Regressive Moving Average：自回归移动平均)型合成滤波器，由此能够进行共振峰增强。作为共振峰增强的方法，不限于上述方法，能够使用其他的公知方法。

并且，将上述加权中使用的权重系数w_n(j)输出到后述的逆滤波器部6。这里，j是权重系数的次数，相当于共振峰增强用滤波器的滤波次数。

并且，作为信号加权的方法，不仅可以是上述共振峰增强，例如还可以是使用听觉遮蔽的方法。听觉遮蔽是指，在某个频率的谱振幅较大的情况下无法认知其周边频率的谱振幅较小的成分这样的人的听觉上的特性，通过抑制该遮蔽(振幅较小)的谱成分，能够相对地进行增强处理。

并且，作为第1信号加权部2的语音信号的特征的加权处理的其他方法，例如，能够进行对表示语音基本周期构造的节距进行增强的节距增强。或者，还能够进行仅增强警告音或异常音具有的特定频率成分的滤波器处理。例如，在警告音的频率为2kHz的正弦波的情况下，实施使以2kHz为中心频率仅上下200Hz的频率成分的振幅增加12dB的频带增强滤波器处理即可。

第1傅里叶变换部3是将由第1信号加权部2加权后的信号变换成谱的处理部。即，对由第1信号加权部2加权后的输入信号x_{w_n}(t)进行例如加汉宁窗后，如下式(1)那样进行例如256点的快速傅里叶变换，从时域信号x_{w_n}(t)变换成谱成分X_{w_n}(k)。

X_{w_n}(k)＝FFT[x_{w_n}(t)] (1)

这里，k表示指定功率谱的频带的频率成分的编号(以下称作谱编号)，FFT[·]表示快速傅里叶变换处理。

接着，第1傅里叶变换部3使用下式(2)，根据输入信号的谱成分X_{w_n}(k)计算功率谱Y_n(k)和相位谱P_n(k)。得到的功率谱Y_n(k)被输出到神经网络运算部4。并且，相位谱P_n(k)被输出到傅里叶逆变换部5。

Y_n(k)＝Re{X_{w_n}(k)}²+Im{X_{w_n}(k)}²；0≤k≤M (2)

P_n(k)＝Arg(Re{X_{w_n}(k)}2+Im{X_{w_n}(k)}²)

这里，Re{X_n(k)}和Im{X_n(k)}分别表示傅里叶变换后的输入信号谱的实数部和虚数部。并且，M＝128。

神经网络运算部4是增强由第1傅里叶变换部3变换后的谱并输出增强目标信号而成的增强信号的处理部。即，具有与上述功率谱Y_n(k)对应的M点的输入点(节点)，128点的功率谱Y_n(k)被输入到神经网络。关于功率谱Y_n(k)，通过基于事前学习到的耦合系数的网络处理对目标信号进行增强，输出增强后的功率谱S_n(k)。

傅里叶逆变换部5是将增强后的谱变换成时域的增强信号的处理部。即，使用神经网络运算部4输出的增强后的功率谱S_n(k)和第1傅里叶变换部3输出的相位谱P_n(k)进行傅里叶逆变换，与RAM等一次存储用的内部存储器中蓄积的本处理的前帧的结果进行重合处理后，将加权增强信号s_{w_n}(t)输出到逆滤波器部6。

逆滤波器部6构成为使用第1信号加权部2输出的权重系数w_n(j)，对加权增强信号s_{w_n}(t)进行与第1信号加权部2相反的操作即解除加权的滤波器处理，输出增强信号s_n(t)。

信号输出部7将通过上述方法增强后的增强信号s_n(t)输出到外部。

另外，作为输入到本实施方式的神经网络运算部4的信号，使用通过快速傅里叶变换而得到的功率谱，但是不限于此，例如，使用倒谱等声音特征参数，或者代替傅里叶变换而使用余弦变换或小波变换等公知的变换处理，也能够得到同样的效果。在小波变换的情况下，能够代替功率谱而使用小波。

示教信号输出部8保持用于学习神经网络运算部4内的耦合系数的大量的信号数据，在上述学习时输出示教信号d_n(t)。并且，与示教信号d_n(t)对应的输入信号也输出到第1信号加权部2。在本实施方式中，目标信号是语音，示教信号是不包含噪声的规定的语音信号，输入信号是针对相同示教信号混入有噪声的信号。

第2信号加权部9对示教信号d_n(t)进行与由第1信号加权部2实施的处理相同的加权处理，输出加权后的示教信号d_{w_n}(t)。

第2傅里叶变换部10进行与由第1傅里叶变换部3实施的处理相同的快速傅里叶变换处理，输出示教信号的功率谱D_n(k)。

误差评价部11使用神经网络运算部4输出的增强后的功率谱S_n(k)和第2傅里叶变换部10输出的示教信号的功率谱D_n(k)，计算下式(3)中定义的学习误差E，将得到的耦合系数输出到神经网络运算部4。

将该学习误差E作为评价函数，例如，通过反向传播法计算耦合系数的变更量。进行神经网络内部的各耦合系数的更新，直到该学习误差E足够小为止。

另外，关于上述示教信号输出部8、第2信号加权部9、第2傅里叶变换部10以及误差评价部11，通常仅在神经网络运算部4的网络学习时，即仅在对耦合系数进行初始优化时进行动作，但是，例如也可以根据输入信号的形式更换示教数据而逐次或始终进行动作，由此，对神经网络的耦合系数进行逐次优化。

通过使示教信号输出部8、第2信号加权部9、第2傅里叶变换部10以及误差评价部11逐次或始终进行动作，在输入信号的形式变化例如输入信号中混入的噪声的种类及其大小变化的情况下，也能够进行可尽快追随于输入信号的变化的增强处理，能够提供更高品质的声音信号增强装置。

图2A～图2D是本实施方式1的声音信号增强装置的输出信号的说明图。图2A是目标信号即语音信号的谱，图2B是在目标信号中混入有街道噪音(Street noise)时的输入信号的谱。图2C是通过现有方法进行了增强处理时的输出信号的谱。图2D是通过本实施方式1的声音信号增强装置进行了增强处理时的输出信号的谱。即，图2C和图2D示出增强后的功率谱S_n(k)的移动谱。

在各图中，纵轴是频率(越往上则频率越高)，横轴是时间。并且，各图中的颜色较白的部位表示谱的功率较大，随着变黑，谱的功率减小。根据这些图可知，在图2C的现有方法中，语音信号的高频率的谱衰减，与此相对，在图2D的本实施方式的方法中，已被增强而没有衰减，从而能够确认本发明的效果。

接着，使用图3的流程图对声音信号增强装置中的各部的动作进行说明。

信号输入部1以规定的帧间隔取入声音信号(步骤ST1A)，作为时域信号即输入信号x_n(t)输出到第1信号加权部2。在采样编号t小于规定值T的情况下(步骤ST1B：是)，反复进行步骤ST1A的处理直到T＝80为止。

第1信号加权部2对良好地表现输入信号x_n(t)中包含的目标信号的特征的部分进行基于共振峰增强的加权处理。

共振峰增强依次进行以下处理。首先，进行输入信号x_n(t)的加汉宁窗(步骤ST2A)。求出加汉宁窗后的输入信号的自相关系数(步骤ST2B)，进行频带扩展(BandExpansion)处理(步骤ST2C)。接着，通过莱文森-德宾(Levinson-Durbin)法求出12次的线性预测系数(步骤ST2D)，根据该线性预测系数求出共振峰增强系数(步骤ST2E)。利用使用已得到的共振峰增强系数的ARMA型合成滤波器进行滤波器处理(步骤ST2F)。

第1傅里叶变换部3对由第1信号加权部2加权后的输入信号x_{w_n}(t)进行例如加汉宁窗(步骤ST3A)，使用式(1)进行例如256点的快速傅里叶变换，从时域信号x_{w_n}(t)变换成谱成分的信号x_{w_n}(k)(步骤ST3B)。在谱编号k小于规定值N的情况下(步骤ST3C：是)，反复进行步骤ST3B的处理直到成为规定值N为止。

接着，使用式(2)，根据输入信号的谱成分X_{w_n}(k)计算功率谱Y_n(k)和相位谱P_n(k)(步骤ST3D)。得到的功率谱Y_n(k)被输出到后述的神经网络运算部4。并且，相位谱P_n(k)被输出到后述的傅里叶逆变换部5。在上述求出功率谱和相位谱的处理中，在谱编号k小于规定值M的情况下(步骤ST3E：是)，反复进行步骤ST3D的处理直到M＝128为止。

神经网络运算部4具有与上述功率谱Y_n(k)对应的M点的输入点(节点)，128点的功率谱Y_n(k)被输入到神经网络(步骤ST4A)。关于功率谱Y_n(k)，通过基于事前学习到的耦合系数的网络处理对目标信号进行增强(步骤ST4B)，输出增强后的功率谱S_n(k)。

傅里叶逆变换部5使用神经网络运算部4输出的增强后的功率谱S_n(k)和第1傅里叶变换部3输出的相位谱P_n(k)进行傅里叶逆变换(步骤ST5A)，与RAM等一次存储用的内部存储器中蓄积的前帧的结果进行重合处理(步骤ST5B)，将加权增强信号s_{w_n}(t)输出到逆滤波器部6。

逆滤波器部6使用第1信号加权部2输出的权重系数w_n(j)，对加权增强信号s_{w_n}(t)进行与第1信号加权部2相反的操作即解除加权的滤波器处理(步骤ST6)，输出增强信号s_n(t)。

信号输出部7将增强信号s_n(t)输出到外部(步骤ST7A)。在步骤ST7A之后，在继续进行声音信号增强处理的情况下(步骤ST7B：是)，处理步骤返回步骤ST1A。另一方面，在不继续进行声音信号增强处理的情况下(步骤ST7B：否)，声音信号增强处理结束。

接着，参照图4对上述声音信号增强处理中的神经网络学习的动作例进行说明。

图4是概略地示出实施方式1的神经网络学习的步骤的一例的流程图。

示教信号输出部8保持用于学习神经网络运算部4内的耦合系数的大量的信号数据，在上述学习时输出示教信号d_n(t)，并且向第1信号加权部2输出输入信号(步骤ST8)。在本实施方式中，目标信号是语音，示教信号成为不包含噪声的语音信号，输入信号成为包含噪声的语音信号。

第2信号加权部9对示教信号d_n(t)进行与由第1信号加权部2实施的处理相同的加权处理(步骤ST9)，输出加权后的示教信号d_{w_n}(t)。

第2傅里叶变换部10进行与由第1傅里叶变换部3实施的处理相同的快速傅里叶变换处理(步骤ST10)，输出示教信号的功率谱D_n(k)。

误差评价部11使用神经网络运算部4输出的增强后的功率谱S_n(k)和第2傅里叶变换部10输出的示教信号的功率谱D_n(k)，计算式(3)中定义的学习误差E(步骤ST11A)。将该学习误差E作为评价函数，例如，通过反向传播法计算耦合系数的变更量(步骤ST11B)，该耦合系数的变更量被输出到神经网络运算部4(步骤ST11C)。然后，进行学习误差评价直到学习误差E成为规定的阈值Eth以下为止。即，在学习误差E大于阈值Eth的情况下(步骤ST11D：是)，进行学习误差评价(步骤ST11A)和耦合系数的再次计算(步骤ST11B)，将再次计算结果输出到神经网络运算部4(步骤ST11C)。反复进行这种处理直到学习误差E成为规定的阈值Eth以下(步骤ST11C：否)为止。

另外，在上述说明中，神经网络学习的步骤为步骤ST8～ST11，设为步骤ST1～步骤ST7的声音信号增强处理的步骤后的步骤编号，但是，一般而言，在执行步骤ST1～ST7之前执行步骤ST8～ST11。并且，如后所述，也可以同时并列执行步骤ST1～ST7和步骤ST8～ST11。

上述声音信号增强装置的硬件结构例如能够通过工作站、主框架或个人计算机、设备组入用途的微计算机等CPU(Central Processing Unit：中央处理单元)内置的计算机实现。或者，上述声音信号增强装置的硬件结构也可以通过DSP(Digital SignalProcessor：数字信号处理器)、ASIC(Application Specific Integrated Circuit：面向特定用途的集成电路)或FPGA(Field-Programmable Gate Array：现场可编程门阵列)等LSI(Large Scale Integrated circuit：大规模集成电路)实现。

图5是示出使用DSP、ASIC或FPGA等LSI构成的声音信号增强装置100的硬件结构例的框图。在图5的例子中，声音信号增强装置100由信号输入输出部102、信号处理电路103、记录介质104以及总线等信号路径105构成。信号输入输出部102是实现与声音变换器101和外部装置106的连接功能的接口电路。作为声音变换器101，例如能够使用麦克风或振动传感器等捕捉声音振动并将其变换成电信号的装置。

图1所示的第1信号加权部2、第1傅里叶变换部3、神经网络运算部4、傅里叶逆变换部5、逆滤波器部6、示教信号输出部8、第2信号加权部9、第2傅里叶变换部10以及误差评价部11的各功能能够通过信号处理电路103和记录介质104实现。并且，图1的信号输入部1和信号输出部7对应于信号输入输出部102。

记录介质104用于蓄积信号处理电路103的各种设定数据和信号数据等各种数据。作为记录介质104，例如能够使用SDRAM(Synchronous DRAM)等易失性存储器、HDD(硬盘驱动器)或SSD(固态驱动器)等非易失性存储器，能够在其中存储神经网络的各耦合系数的初始状态和各种设定数据、示教信号数据。

由信号处理电路103进行增强处理后的声音信号经由信号输入输出部102送出到外部装置106，作为该外部装置106，例如是语音编码装置、语音识别装置、语音蓄积装置、免提通话装置、异常音检测装置等各种语音声音处理装置。并且，利用放大装置放大进行增强处理后的声音信号并利用扬声器等直接作为声音波形输出也能够作为外部装置106的功能来实现。另外，本实施方式的声音信号增强装置还能够与上述其他装置一起通过DSP等实现。

另一方面，图6是示出使用计算机等运算装置构成的声音信号增强装置100的硬件结构例的框图。在图6的例子中，声音信号增强装置100由信号输入输出部201、内置CPU202的处理器200、存储器203、记录介质204和总线等信号路径205构成。信号输入输出部201是实现与声音变换器101和外部装置106的连接功能的接口电路。

存储器203是用作存储用于实现本实施方式的声音信号增强处理的各种程序的程序存储器、处理器进行数据处理时使用的工作存储器以及展开信号数据的存储器等的ROM和RAM等存储单元。

第1信号加权部2、第1傅里叶变换部3、神经网络运算部4、傅里叶逆变换部5、逆滤波器部6、示教信号输出部8、第2信号加权部9、第2傅里叶变换部10以及误差评价部11的各功能能够通过处理器200和记录介质204实现。并且，图1的信号输入部1和信号输出部7对应于信号输入输出部201。

记录介质204用于蓄积处理器200的各种设定数据和信号数据等各种数据。作为记录介质204，例如能够使用SDRAM等易失性存储器、HDD或SSD。能够蓄积包含OS(操作系统)的程序、各种设定数据、声音信号数据等各种数据。另外，还能够在该记录介质204中蓄积存储器203内的数据。

处理器200使用存储器203中的RAM作为作业用存储器，根据从存储器203中的ROM中读出的计算机程序进行动作，由此能够执行与第1信号加权部2、第1傅里叶变换部3、神经网络运算部4、傅里叶逆变换部5、逆滤波器部6、示教信号输出部8、第2信号加权部9、第2傅里叶变换部10以及误差评价部11相同的信号处理。

进行增强处理后的声音信号经由信号输入输出部102送出到外部装置106，作为该外部装置，例如是语音编码装置、语音识别装置、语音蓄积装置、免提通话装置、异常音检测装置等各种语音声音处理装置。并且，利用放大装置放大进行增强处理后的声音信号并利用扬声器等直接作为声音波形输出也能够作为外部装置106的功能来实现。另外，本实施方式的声音信号增强装置还能够与上述其他装置一起作为软件程序执行来实现。

执行本实施方式的声音信号增强装置的程序可以存储在执行软件程序的计算机内部的存储装置中，也可以是利用CD-ROM等存储介质进行发布的形式。并且，还能够通过LAN(Local Area Network：局域网)等无线和有线网络从其他计算机取得程序。进而，关于与本实施方式的声音信号增强装置100连接的声音变换器101和外部装置106，也可以通过无线和有线网络发送接收各种数据。

实施方式1的声音信号增强装置如上所述构成，因此，增强声音信号中的目标信号即语音的重要特征部分并进行神经网络学习，在作为示教数据的目标信号较少的状况下也能够高效地进行学习，能够提供高品质的声音信号增强装置。并且，针对目标信号以外的噪声(干扰音)，也可得到与目标信号的情况相同的效果(该情况下，向进一步减少噪声的方向进行动作)，在无法充分准备混入有产生频度较少的噪声的输入信号数据的状况下，也能够高效地进行学习，能够提供高品质的声音信号增强装置。

并且，根据本实施方式1，根据输入信号的形式更换示教数据而逐次或始终进行动作，因此，能够对神经网络的耦合系数进行逐次优化，能够提供在输入信号的形式变化例如输入信号中混入的噪声的种类及其大小变化的情况下也可尽快追随于输入信号的变化的声音信号增强装置。

如以上说明的那样，根据实施方式1的声音信号增强装置，具有：第1信号加权部，其输出根据混入有目标信号和噪声的输入信号对目标信号的特征进行加权后的信号；神经网络运算部，其输出针对由第1信号加权部加权后的信号使用耦合系数增强目标信号而成的增强信号；逆滤波器部，其根据增强信号解除目标信号的特征的加权；第2信号加权部，其输出针对用于进行神经网络学习的示教信号对目标信号的特征进行加权后的信号；以及误差评价部，其输出使得由第2信号加权部加权后的信号与神经网络运算部的输出信号之间的学习误差为设定值以下的值的耦合系数。因此，在学习数据较少的状况下也能够得到高品质的声音信号的增强信号。

并且，根据实施方式1的声音信号增强装置，具有：第1信号加权部，其输出根据混入有目标信号和噪声的输入信号对目标信号的特征进行加权后的信号；第1傅里叶变换部，其将由第1信号加权部加权后的信号变换成谱；神经网络运算部，其输出针对谱使用耦合系数增强目标信号而成的增强信号；傅里叶逆变换部，其将从神经网络运算部输出的增强信号变换成时域的增强信号；逆滤波器部，其根据从傅里叶逆变换部输出的增强信号，解除目标信号的特征的加权；第2信号加权部，其输出针对用于进行神经网络学习的示教信号对目标信号的特征进行加权后的信号；第2傅里叶变换部，其将由第2信号加权部加权后的信号变换成谱；以及误差评价部，其输出使得第2傅里叶变换部的输出信号与神经网络运算部的输出信号之间的学习误差为设定值以下的值的耦合系数，作为耦合系数。因此，在作为示教信号的目标信号较少的状况下也能够高效地进行学习，能够提供高品质的声音信号增强装置。并且，针对目标信号以外的噪声(干扰音)，也可得到与目标信号的情况相同的效果(该情况下，向进一步减少噪声的方向进行动作)，在无法充分准备混入有产生频度较少的噪声的输入信号数据的状况下，也能够高效地进行学习，能够提供高品质的声音信号增强装置。

实施方式2

在实施方式1中，说明了在时间波形区域实施输入信号的加权处理的情况，但是，还能够在频域进行输入信号的加权处理，将其作为实施方式2进行说明。

图7示出实施方式2的声音信号增强装置的内部结构。在图7中，与图1所示的实施方式1的声音信号增强装置不同的结构是第1信号加权部12、逆滤波器部13以及第2信号加权部14。其他结构与实施方式1相同，因此，对对应的部分标注相同标号并省略其说明。

第1信号加权部12是如下的处理部：输入第1傅里叶变换部3输出的功率谱Y_n(k)，例如，在频域实施与实施方式1的第1信号加权部2相同的处理，输出加权后的功率谱Y_{w_n}(k)。并且，第1信号加权部12输出频率权重系数W_n(k)。此时，按照每个频率即每个功率谱设定频率权重系数W_n(k)。

在逆滤波器部13中，输入第1信号加权部12输出的频率权重系数W_n(k)和神经网络运算部4输出的增强后的功率谱S_n(k)，在频域实施实施方式1的逆滤波器部6的处理，得到增强后的功率谱S_n(k)的逆滤波器输出。

第2信号加权部14输入第2傅里叶变换部10输出的示教信号的功率谱D_n(k)，例如，在频域实施与实施方式1的第2信号加权部9相同的处理，输出加权后的示教信号的功率谱D_{w_n}(k)。

在这样构成的实施方式2的声音信号增强装置中，信号输入部1将作为时域信号的输入信号x_n(t)输出到第1傅里叶变换部3。在第1傅里叶变换部3中，对输入信号x_n(t)进行与实施方式1相同的处理，计算功率谱Y_n(k)和相位谱P_n(k)，功率谱Y_n(k)输出到第1信号加权部12，相位谱P_n(k)输出到傅里叶逆变换部5。第1信号加权部12输入第1傅里叶变换部3输出的功率谱Y_n(k)，在频域实施与实施方式1的第1信号加权部2相同的处理，输出加权后的功率谱Y_{w_n}(k)和频率权重系数W_n(k)。神经网络运算部4根据加权后的功率谱Y_{w_n}(k)对目标信号进行增强，输出增强后的功率谱S_n(k)。逆滤波器部13使用第1信号加权部12输出的频率权重系数w_n(k)，对增强后的功率谱S_n(k)进行与第1信号加权部2相反的操作即解除加权的滤波器处理，将其输出到傅里叶逆变换部5。在傅里叶逆变换部5中，使用第1傅里叶变换部3输出的相位谱P_n(k)进行傅里叶逆变换，与RAM等一次存储用的内部存储器中蓄积的前帧的结果进行重合处理，将增强信号s_n(t)输出到信号输出部7。

并且，关于实施方式2的神经网络学习的动作，与实施方式1的不同之处在于，针对来自示教信号输出部8的示教信号d_n(t)，利用第2傅里叶变换部10进行傅里叶变换后，由第2信号加权部14进行加权。即，第2傅里叶变换部10对示教信号d_n(t)进行与由第1傅里叶变换部3实施的处理相同的快速傅里叶变换处理，输出示教信号的功率谱D_n(k)。接着，第2信号加权部14对示教信号的功率谱D_n(k)进行与由第1信号加权部12实施的处理相同的加权处理，输出加权后的示教信号的功率谱D_{w_n}(k)。

误差评价部11使用神经网络运算部4输出的增强后的功率谱S_n(k)和第2信号加权部14输出的加权后的示教信号的功率谱D_{w_n}(k)，与实施方式1同样地，进行学习误差E的计算和耦合系数的再次计算，直到学习误差E成为规定的阈值Eth以下为止。

如以上说明的那样，根据实施方式2的声音信号增强装置，具有：第1傅里叶变换部，其将混入有目标信号和噪声的输入信号变换成谱；第1信号加权部，其输出针对谱在频域对目标信号的特征进行加权后的信号；神经网络运算部，其输出针对第1信号加权部的输出信号使用耦合系数增强目标信号而成的增强信号；逆滤波器部，其根据增强信号解除目标信号的特征的加权；傅里叶逆变换部，其将逆滤波器部的输出信号变换成时域的增强信号；第2傅里叶变换部，其将用于进行神经网络学习的示教信号变换成谱；第2信号加权部，其输出针对第2傅里叶变换部的输出信号对目标信号的特征进行加权后的信号；以及误差评价部，其输出使得第2信号加权部的输出信号与神经网络运算部的输出信号之间的学习误差为设定值以下的值的耦合系数。因此，在实施方式1的效果的基础上，通过在频域进行输入信号的加权处理，能够按照各频率细致地设定权重，能够一次性地在频域实施多个加权处理，因此，能够进行更加致密的加权，能够提供更高品质的声音信号增强装置。

实施方式3

在上述实施方式1和实施方式2中，将作为频域信号的功率谱作为神经网络运算部4的输入输出，但是，还能够输入时间波形信号，将其作为实施方式3进行说明。

图8示出本实施方式的声音信号增强装置的内部结构。在图8中，与图1不同的结构是误差评价部15。其他结构与图1相同，因此，对对应的部分标注相同标号并省略其说明。

神经网络运算部4输入第1信号加权部2输出的加权后的输入信号x_{w_n}(t)，与实施方式1的神经网络运算部4同样地，输出增强目标信号而成的增强信号s_n(t)。

误差评价部15使用神经网络运算部4输出的增强信号s_n(t)和第2信号加权部9输出的d_{w_n}(t)，计算下式(4)中定义的学习误差Et，将得到的耦合系数输出到神经网络运算部4。

这里，T是时间帧内的采样个数，T＝80。

除此以外的动作与实施方式1相同，因此，这里省略说明。

如以上说明的那样，根据实施方式3的声音信号增强装置，将输入信号和示教信号设为时间波形信号，因此，通过将时间波形信号直接输入到神经网络，不需要傅里叶变换和傅里叶逆变换处理，具有能够削减处理量和存储器量的效果。

另外，在上述实施方式1～3中，使用4层构造的神经网络，但是不限于此，当然还能够使用5层以上的更深构造的神经网络。并且，还可以使用使输出信号的一部分返回到输入的RNN(Recurrent Neural Network：递归神经网络)、对RNN的耦合元件的构造施加改良的LSTM(Long Short-Term Memory)-RNN等公知的神经网络的衍生改良型。

并且，在上述实施方式1、2中，将第1傅里叶变换部3输出的功率谱的各频率成分输入到神经网络运算部4，但是，也可以集中多个该功率谱作为输入，即，将谱的频带成分作为输入。作为该频带的构成方法，例如能够利用临界带宽进行集中。这是所谓的利用巴克尺度进行频带分割后的巴克谱(Bark Spectrum)。通过将巴克谱作为输入，能够模拟人的听觉特性，而且，能够削减神经网络的节点数，因此，能够削减神经网络运算所需要的处理量和存储器量。并且，作为巴克谱以外的应用例使用梅尔尺度，也可得到同样的效果。

进而，在上述各个实施方式中，举出街道噪音作为噪声的一例，举出语音作为目标信号的一例进行了说明，但是不限于此，例如，还能够应用于汽车或列车的行驶噪音或飞机噪音、电梯等升降机动作噪音、工厂内的机器噪音、展示会场等中的众多人声混合而成的混声噪音、一般家庭内的生活噪音、免提通话时的受话音发出的声音回波等，关于这些噪声和目标信号，也同样发挥各实施方式中叙述的效果。

并且，将输入信号的带宽设为4kHz，但是不限于此，例如，还能够应用更宽频带的语音信号、人听不到的20kHz以上的超声波或50Hz以下的低频信号。

除了上述以外，本发明能够在其发明范围内进行实施方式的任意结构要素的变形或实施方式的任意结构要素的省略。

产业上的可利用性

如上所述，本发明的声音信号增强装置能够进行高品质的信号增强(或噪声抑制和声音回波降低)，因此，适合用于导入有语音通信、语音蓄积、语音识别系统中的任意系统的汽车导航仪、移动电话和对讲机等语音通信系统、免提通话系统、TV会议系统和监视系统等的音质改善、语音识别系统的识别率提高、自动监视系统的异常音检测率的提高。

标号说明

1：信号输入部；2、12：第1信号加权部；3：第1傅里叶变换部；4：神经网络运算部；5：傅里叶逆变换部；6：逆滤波器部；7：信号输出部；8：示教信号输出部；9、14：第2信号加权部；10：第2傅里叶变换部；11、15：误差评价部；13：逆滤波器部。

Claims

1.一种声音信号增强装置，其特征在于，所述声音信号增强装置具有：

第1信号加权部，其输出针对混入有目标信号和噪声的输入信号对所述目标信号的特征进行加权后的信号；

神经网络运算部，其输出针对由所述第1信号加权部加权后的信号使用耦合系数增强所述目标信号而成的增强信号；

逆滤波器部，其根据所述增强信号解除所述目标信号的特征的加权；

第2信号加权部，其输出针对用于进行神经网络学习的示教信号对目标信号的特征进行加权后的信号；以及

误差评价部，其输出使得由所述第2信号加权部加权后的信号与所述神经网络运算部的输出信号之间的学习误差为设定值以下的值的耦合系数，作为所述耦合系数。

2.根据权利要求1所述的声音信号增强装置，其特征在于，

所述输入信号和所述示教信号是时间波形信号。

3.一种声音信号增强装置，其特征在于，所述声音信号增强装置具有：

第1信号加权部，其输出根据混入有目标信号和噪声的输入信号对所述目标信号的特征进行加权后的信号；

第1傅里叶变换部，其将由所述第1信号加权部加权后的信号变换成谱；

神经网络运算部，其输出针对所述谱使用耦合系数增强所述目标信号而成的增强信号；

傅里叶逆变换部，其将从所述神经网络运算部输出的增强信号变换成时域的增强信号；

逆滤波器部，其根据从所述傅里叶逆变换部输出的增强信号，解除所述目标信号的特征的加权；

第2信号加权部，其输出针对用于进行神经网络学习的示教信号对目标信号的特征进行加权后的信号；

第2傅里叶变换部，其将由所述第2信号加权部加权后的信号变换成谱；以及

误差评价部，其输出使得所述第2傅里叶变换部的输出信号与所述神经网络运算部的输出信号之间的学习误差为设定值以下的值的耦合系数，作为所述耦合系数。

4.一种声音信号增强装置，其特征在于，所述声音信号增强装置具有：

第1傅里叶变换部，其将混入有目标信号和噪声的输入信号变换成谱；

第1信号加权部，其输出针对所述谱在频域对所述目标信号的特征进行加权后的信号；

神经网络运算部，其输出针对所述第1信号加权部的输出信号使用耦合系数增强所述目标信号而成的增强信号；

傅里叶逆变换部，其将所述逆滤波器部的输出信号变换成时域的增强信号；

第2傅里叶变换部，其将用于进行神经网络学习的示教信号变换成谱；

第2信号加权部，其输出针对所述第2傅里叶变换部的输出信号对目标信号的特征进行加权后的信号；以及

误差评价部，其输出使得所述第2信号加权部的输出信号与所述神经网络运算部的输出信号之间的学习误差为设定值以下的值的耦合系数，作为所述耦合系数。