CN112447191A

CN112447191A - 信号处理装置以及信号处理方法

Info

Publication number: CN112447191A
Application number: CN202010126904.4A
Authority: CN
Inventors: 笼岛岳彦
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2019-08-30
Filing date: 2020-02-28
Publication date: 2021-03-05
Anticipated expiration: 2040-02-28
Also published as: JP2021036297A; CN112447191B; US11395061B2; US20210067867A1; JP7191793B2

Abstract

一种信号处理装置以及信号处理方法。本发明的实施方式涉及信号处理装置以及信号处理方法。提供一种能够有效强调目标声音的信号处理装置以及信号处理方法。一实施方式的信号处理装置具备变换部、第1算出部、第2算出部、以及空间滤波部。变换部将通过在不同的位置检测声音而得到的第1检测信号向时频域变换而得到第2检测信号。第1算出部基于第2检测信号算出第1空间相关矩阵。第2算出部基于将第2检测信号延迟了预定的时间而得到的第3检测信号算出第2空间相关矩阵。空间滤波部基于第1空间相关矩阵以及第2空间相关矩阵生成空间滤波，利用空间滤波对第2检测信号进行滤波。

Description

信号处理装置以及信号处理方法

关联申请

本申请以日本专利申请2019-158133(申请日：8/30/2019)为在先申请，享受该在先申请的优先权。本申请通过参照该在先申请而包含该申请的全部内容。

技术领域

本发明的实施方式涉及信号处理装置以及信号处理方法。

背景技术

为了在噪声环境下正确识别用户说话的声音，开发了一种抑制噪声并强调声音的信号处理技术。

发明内容

本发明要解决的问题是，提供一种能够有效强调目标声音的信号处理装置以及信号处理方法。

一实施方式的信号处理装置具备：变换部、第1算出部、第2算出部、以及空间滤波部。变换部，将通过在不同的位置检测声音而得到的第1检测信号向时频域变换而得到第2检测信号；第1算出部，基于所述第2检测信号算出第1空间相关矩阵；第2算出部，基于将所述第2检测信号延迟了预定的时间而得到的第3检测信号算出第2空间相关矩阵；空间滤波部，基于所述第1空间相关矩阵以及所述第2空间相关矩阵生成空间滤波，利用所述空间滤波对所述第2检测信号进行滤波。

根据上述构成的信号处理装置，能够有效强调目标声音。

附图说明

图1是表示包含第1实施方式的信号处理装置的遥控装置的框图。

图2是表示图1所示的遥控装置的外观的立体图。

图3是表示图1所示的声音强调部的构成例的框图。

图4是表示图3所示的波谱强调部的构成例的框图。

图5是表示图1所示的声音强调部的工作例的流程图。

图6是表示第2实施方式的波谱强调部的构成的一例的框图。

图7是表示第2实施方式的波谱强调部的构成的其他例的框图。

图8是表示具备第3实施方式的信号处理装置的遥控装置的框图。

图9是表示图8所示的遥控装置的外观的立体图。

图10是表示具备第4实施方式的信号处理装置的遥控装置的框图。

图11是表示图10所示的声音强调部的构成例的框图。

图12是表示图11所示的波谱强调部的构成例的框图。

图13是表示一实施方式的信号处理装置的硬件构成例的框图。

具体实施方式

以下，参照附图说明实施方式。实施方式涉及从由多个麦克风(microphone)收集到的音响信号生成对目标声音进行了强调后的音响信号的信号处理装置。作为非限定的例子，信号处理装置搭载于用于操作家电产品的遥控装置。在此将说明的实施方式中，信号处理装置搭载于空调的遥控装置。该遥控装置对“开关接通”、“温度提高”等的预先登记过的语句(以后，称为命令字或关键字)的发声进行反应而操作空调。

(第1实施方式)

图1是示意性表示具备第1实施方式的信号处理装置的遥控装置100的框图，图2是示意性表示遥控装置100的外观的立体图。

如图1所示，遥控装置100是为了远程操作空调200而使用的电子设备。遥控装置100识别用户说话的声音，将与该声音相应的控制信号向空调200进行无线发送。例如，用户说出“开关接通”时，遥控装置100将指示启动的控制信号向空调200发送。空调200按照从遥控装置100接收到的控制信号而工作。

遥控装置100具备：多个麦克风(在该例中为4个麦克风101～104)、声音强调部105、声音识别部106、以及通信部107。声音强调部105相当于第1实施方式的信号处理装置。信号处理装置还可以包含声音强调部105以外的至少1个要素(例如声音识别部106)。

麦克风101～104检测声音并生成检测信号(音响信号)。在用户说出了命令字的情况下，各检测信号包含：包含噪声的第1部分、接续于第1部分的、包含噪声以及命令字发声的第2部分、接续于第2部分的、包含噪声的第3部分。如图2所示，麦克风101～104彼此分离而配置于遥控装置100的框体110的一面上。由此，包含4个麦克风101～104的集音部输出通过在不同位置检测声音而得到的检测信号集(set)。此外，麦克风的数量以及配置不限定于图2所示的例子。

再参照图1，声音强调部105从麦克风101～104接收检测信号。声音强调部105对接收到的检测信号进行声音强调处理，输出强调声音信号。声音强调处理表示抑制噪声并强调目标声音(具体而言是命令字发声)的信号处理。声音强调部105的详情参照图3以及图4稍后说明。

声音识别部106从声音强调部105接收强调声音信号。声音识别部106对接收到的强调声音信号，进行预先登记过的1个或多个命令字的检测。例如，声音识别部106对接收到的强调声音信号进行声音识别，判定在声音识别的结果中是否包含命令字。声音识别部106在检测出预先登记过的命令字中的任一个的情况下，输出作为识别所检测出的命令字的识别信息的命令字ID。

通信部107从声音识别部106接收命令字ID。通信部107生成与接收到的命令字ID相应的控制信号，例如使用红外线，将控制信号向空调200发送。

图3是示意性表示声音强调部105的构成的一例的框图。如图3所示，声音强调部105具备：变换部301、强调部303、以及逆短时傅立叶变换部305。

变换部301从与麦克风101～104对应的4个信道(channel)接收检测信号。变换部301通过对所接收到的检测信号分别独立地进行短时傅立叶变换而向时频域变换，输出频谱X_m(f，n)。在此，f表示频段(frequency bin)的编号，n表示帧(frame)的编号，m表示麦克风或信道的编号。

具体而言、变换部301包含与各个麦克风101～104对应的短时傅立叶变换部302。各短时傅立叶变换部302对从麦克风101～104中的对应的麦克风接收到的检测信号进行短时傅立叶变换。例如，麦克风101所对应的短时傅立叶变换部302对来自麦克风101的检测信号适用窗函数而生成多个帧，对各帧进行傅立叶变换，输出频谱X₁(f，n)。例如，在将采样频率设为16kHz、帧长(窗函数长)设为256样本(sample)、帧移位(frame shift)设为128样本的情况下，各帧的频谱考虑低域与高域的对称性而具有0≦f≦128的范围的129点的复数数值。与麦克风101相关的第n帧的频谱X₁(f，n)具有X₁(0，n)、X₁(1，n)、···、X₁(128，n)。

将4信道的频谱汇总得到的4维向量如下表示。

X(f，n)＝[X₁(f，n)，X₂(f，n)，X₃(f，n)，X₄(f，n)]^T

在此，T表示矩阵的转置。以后，将4信道的频谱X₁(f，n)、X₂(f，n)、X₃(f，n)、X₄(f，n)标记为频谱X(f，n)。

强调部303从变换部301接收频谱X(f，n)。强调部303按帧以及按频段(即按时间频率点)对频谱X(f，n)进行波谱强调(Spectral enhancement)，输出强调声音的频谱。波谱强调表示对命令字发声的波谱进行强调，抑制噪声的波谱的信号处理。波谱强调的详情参照图4稍后说明。

具体而言、强调部303包含频段各自所对应的波谱强调部304。各波谱强调部304从变换部301接收频谱X(i，n)，按帧，对接收到的频谱X(i，n)进行波谱强调。在此，i表示从0到128的整数。

逆短时傅立叶变换部305从波谱强调部304接收强调声音的频谱。逆短时傅立叶变换部305对所接收到的强调声音的频谱进行逆短时傅立叶变换，输出强调声音信号。逆短时傅立叶变换包含逆傅立叶变换处理以及波形重叠处理。

此外，也可以设为不具有逆短时傅立叶变换部305的构成，使得将从波谱强调部304输出的强调声音的频谱由声音识别部106接收。通过这样构成，有时能够省略逆短时傅立叶变换部305的处理和由声音识别部106进行的短时傅立叶变换处理，具有能削减计算量的效果。

图4是示意性表示波谱强调部304的构成例的框图。图4所示的波谱强调部304相当于图3所示的各波谱强调部304。

波谱强调部304具备延迟部401、空间相关算出部402、空间相关算出部403、以及空间滤波部404。在波谱强调部304中，来自变换部301的频谱X(f，n)被提供给空间相关算出部402以及空间滤波部404，并且经由延迟部401被提供给空间相关算出部403。

延迟部401使频谱X(f，n)延迟预定的时间。延迟时间被设定为，作为应强调的声音的命令字发声的持续长度大致成为延迟时间以下即可。假定为，在命令字为“开关接通”等的短语句的情况下，命令字发声的持续长度为1秒以下。该情况下，延迟时间例如被设定为1秒。1秒的延迟时间等于125(＝16000×1/128)的延迟帧数。即，延迟部401对与125帧相应的数据进行缓冲(buffering)，输出频谱X(f，n－125)。

空间相关算出部402基于从变换部301接收到的频谱X(f，n)算出空间相关矩阵。空间相关矩阵是表示信道间的空间相关性的信息。例如，空间相关算出部402根据频谱X(f，n)算出由以下(1)式表示的空间相关矩阵Φ_s(f，n)。

在此，w_s(t)表示示出按帧的权重的窗函数，τ_s表示窗函数w_s(t)的长度，H表示共轭转置。w_s(t)以及τ_s设定为满足以下(2)式即可。

在此，d表示延迟帧数。在一例中，τ_s＝100、w_s(t)＝1。在其他例中，τ_s＝∞、w_s(t)＝α_s ^t，在此，α_s在0＜α_s＜1的范围内被设定为充分小的值。该情况下，空间相关矩阵Φ_s(f，n)能够使用以下(3)式表示的递归公式以很少的计算量算出。

Φ_s(f，n)＝α_sΦ_s(f，n-1)+(1-α_s)X(f，n)X(f，n)^H (3)

空间相关算出部403基于从延迟部401接收到的频谱X(f，n-d)算出空间相关矩阵。例如，空间相关算出部403使用频谱X(f，n-d)算出由以下(4)式表示的空间相关矩阵Φ_N(f，n)。

在此，w_N(t)表示示出按帧的权重的窗函数，τ_N表示窗函数w_N(t)的长度。在一例中，τ_N＝200、w_N(t)＝1。在其他例中，τ_N＝∞、w_N(t)＝α_N ^t，在此，α_N在0＜α_N＜1的范围内被设定为充分小的值。该情况下，空间相关矩阵Φ_N(f，n)能够使用以下(5)式表示的递归公式以很少的计算量算出。

Φ_N(f，n)＝α_NΦ_N(f，n-1)+(1-α_N)X(f，n-d)X(f，n-d)^H (5)

空间滤波部404基于由空间相关算出部402算出的空间相关矩阵Φ_s(f，n)和由空间相关算出部403算出的空间相关矩阵Φ_N(f，n)生成空间滤波，用所生成的空间滤波对来自变换部301的频谱X(f，n)进行滤波(filtering)而生成强调声音的频谱。在此，将空间滤波如下所示用4维向量表示。

F(∫，n)-[F₁(∫，τt)，F₂(f，τt)，F₃(f，τt)，F₄(f，τt)]^T

该情况下，空间滤波部404例如按照以下(6)式，算出表示强调声音的波谱的输出Y(f，n)。

Y(f，n)＝F(f，n)^HX(f，n) (6)

在一例中，空间滤波F(f，n)如以下(7)式所示，作为信噪比最大化波束成形(beamformer)F_SNR(f，n)与后滤波(Post-filter)w(f，n)之积而被求出。

F(f，n)＝w(f，n)F_SNR(f，n) (7)

信噪比最大化波束成形F_SNR(f，n)是将空间相关矩阵Φ_s(f，n)视作声音(信号)的空间相关矩阵、将空间相关矩阵Φ_N(f，n)视作噪声的空间相关矩阵、将声音与噪声的功率(power)比进行最大化的波束成形，作为与矩阵Φ_N ^-1(f，n)Φ_s(f，n)的最大固有值对应的固有向量而被求出。

ポス卜滤波w(f，n)通过调整各频段的功率来改善音质。例如，ポス卜滤波w(f，n)使用以下(8)式而被求出。

此外，也可以使得：取代信噪比最大化波束成形，使用基于空间相关矩阵Φ_s(f，n)以及Φ_N(f，n)求出的其他波束成形。例如，也可以使用最小方差无失真响应波束成形。在将空间相关矩阵Φ_s(f，n)的最大固有值所对应的固有向量设为导向向量(steering vector)h(f，n)时，基于最小方差无失真响应波束成形的空间滤波能够使用以下(9)式求出。

在第1实施方式中，基于命令字发声的持续长度为1秒以下这一假定，在当前时刻观测着目标声音的情况下，当前时刻的1秒前以前推定为噪声被观测，用上述的方法推定声音的空间相关矩阵以及噪声的空间相关矩阵。因此，基于声音的空间相关矩阵以及噪声的空间相关矩阵而得到的空间滤波通过强调命令字发声的到来方向，抑制噪声的到来方向进行工作，以使得强调命令字发声。该工作原理由于与噪声的音响的特征无关，所以即使噪声源包含电视的声音这样的声音也具有效果。

图5是示意性表示声音强调部105的工作例的流程图。在图5的步骤S501中，声音强调部105作为变换部301进行工作，将在不同的位置检测检测声音而得到的第1检测信号向时频域变换而得到第2检测信号。第2检测信号各自具有第1检测信号的时间频率成分。具体而言、第1检测信号对应于从4个麦克风101～104输出的检测信号，第2检测信号对应于表示为频谱X(f，n)的4信道的频谱。

声音强调部105按帧以及按频段进行步骤S502～S505所示的处理。

在步骤S502中，声音强调部105作为空间相关算出部402进行工作，基于到第1时刻为止的第2检测信号算出第1空间相关矩阵。第1时刻是与作为处理对象的第n帧对应的时刻。例如，声音强调部105按照上述(1)式或(3)式算出空间相关矩阵Φ_s(f，n)。根据(1)式，空间相关矩阵Φ_s(f，n)基于第(n－τ_s+1)帧到第n帧的频谱X(f，n－τ_s+1)、X(f，n－τ_s+2)、···、X(f，n)而被算出。

声音强调部105也可以算出空间相关矩阵Φ_s(f，n)，以使得从第2时刻到第1时刻的第2检测信号的贡献比到第2时刻的第2检测信号的贡献大。在此，第2时刻是比第1时刻提前了延迟时间的时刻，是与第(n－d+1)帧对应的时刻。从第2时刻到第1时刻的第2检测信号的贡献比到第2时刻为止的第2检测信号的贡献大这一条件，能够通过使用满足上述(2)式的窗函数w_s(t)以及窗函数长τ_s而实现。

在步骤S503中，声音强调部105作为延迟部401以及空间相关算出部403进行工作，基于使第2检测信号延迟了延迟时间而得到的第3检测信号算出第2空间相关矩阵。具体而言，声音强调部105基于到第2时刻为止的第2检测信号算出第2空间相关矩阵。例如，声音强调部105按照上述(4)式或(5)式算出空间相关矩阵Φ_N(f，n)。根据(4)式，空间相关矩阵Φ_N(f，n)基于从第(n－d－τ_N+1)帧到第(n－d)帧为止的频谱X(f，n－d－τ_N+1)、X(f，n－d－τ_N+2)、···、X(f，n－d)而被算出。

在步骤S504中，声音强调部105作为空间滤波部404进行工作，基于通过步骤S502、S503算出的第1以及第2空间相关矩阵生成空间滤波。例如，声音强调部105算出将空间相关矩阵Φ_s(f，n)设为信号的空间相关矩阵、将空间相关矩阵Φ_N(f，n)设为噪声的空间相关矩阵而得到的信噪比最大化波束成形F_SNR(f，n)，按照上述(7)式，基于所生成的信噪比最大化波束成形F_SNR(f，n)算出空间滤波F(f，n)。

在步骤S505中，声音强调部105作为空间滤波部404进行工作，使用所生成的空间滤波对第2检测信号进行滤波。例如，声音强调部105按照上述(6)式，将空间滤波F(f，n)适用于频谱X(f，n)，由此得到频谱值Y(f，n)。

在步骤S506中，声音强调部105作为逆短时傅立叶变换部305进行工作，将按帧以及按频段得到的频谱值向时域变换。

这样一来，声音强调部105根据通过麦克风101～104得到的检测信号，生成噪声得到了抑制、命令字发声被强调了的音响信号。

以上，第1实施方式的信号处理装置构成为，将持续的声源视为噪声，对新的声源的开头部分进行强调。由此，能够以低运算量求出强调短发声的波束成形。其结果，能够得到即使在运算性能低的终端也可实时(real time)进行工作这一效果。进而，在应抑制的噪声包含声音的情况下，也能够抑制噪声。由此，第1实施方式的信号处理装置能够有效强调目标声音。

(第2实施方式)

第2实施方式中，波谱强调部的构成与第1实施方式不同，波谱强调部以外的要素与第1实施方式相同。因此，省略波谱强调部以外的要素的说明。在第2实施方式中，空间相关矩阵Φ_s(f，n)通过对频谱X(f，n)乘以掩码(mask)而被求出。掩码是表示各时间频率点上的目标信号占检测信号的比例、即、各时间帧以及各频段的频谱包含应强调的声音的比例。若能够适当推定掩码，则能够从空间相关矩阵Φ_s(f，n)中去除噪声成分，能期待空间滤波的性能改善。

图6是示意性表示第2实施方式的波谱强调部的构成例的框图。在图6中，对与图4中示出的要素同样的要素标注同样的标号，且省略针对这些要素的说明。

图6所示的波谱强调部600具备：掩码推定部601、空间相关算出部602、延迟部401、空间相关算出部403以及空间滤波部404。

掩码推定部601基于频谱X(f，n)推定掩码M(f，n)。掩码M(f，n)是满足0≤M(f，n)≤1的标量(Scalar)值。掩码M(f，n)能够使用将频谱X(f，n)的绝对值(振幅波谱)作为输入的神经网络而推定。首先，根据与各麦克风对应的振幅波谱|X_m(f，n)|推定掩码M_m(f，n)，作为掩码M_m(f，n)的中位数(median)而求出掩码M(f，n)。

推定掩码M_m(f，n)的神经网络的输入向量v(n)以及输出向量u(n)例如分别由以下(10)式以及(11)式定义。

v(n)＝[log|X_m(0，n)|，…，log|X_m(128，n)|，log|X_m(0，n-1)|，…，log|X_m(128，n-1)|] (10)

u(n)＝[M_m(0，n)，M_m(1，n)，，…M_m(128，n)] (11)

神经网络的构造，是输入层的节点数是258、输出层的节点数是129、3层的中间层各自的节点数是200的全耦合网络，且将Sigmoid函数作为激活函数而使用。

神经网络的学习能够使用包含噪声重叠声音和掩码的正确值的数据来作为教师数据而实施。就与某噪声重叠声音对应的掩码的正确值而言，可以准备清晰的(clean)声音数据和噪声数据，通过使用了清晰的声音数据和噪声数据的模拟(Simulation)而求出。作为损耗函数，可以使用交叉熵(Cross entropy)。为了网络的最佳化，可以使用概率梯度下降法等的任意的方法。

空间相关算出部602基于频谱X(f，n)以及掩码M(f，n)，算出空间相关矩阵Φ_s(f，n)。例如，空间相关算出部602按照以下(12)式算出空间相关矩阵Φ_s(f，n)。

具备上述构成的波谱强调部600能够抑制当前时刻的检测信号的噪声波谱而算出空间相关矩阵Φ_s(f，n)。由此，能够求出更加准确地强调声音的空间滤波。其结果，信噪比(SNR)得到改善。

图7是示意性表示第2实施方式的波谱强调部的其他构成例的框图。在图7中对与图4以及图6示出的要素同样的要素标注同样的标号，省略针对这些要素的说明。图6所示的波谱强调部600基于声音和噪声的波谱的不同使用神经网络推定出了掩码，但是图7所示的波谱强调部700基于声音和噪声的到来方向的不同来推定掩码。

图7所示的波谱强调部700具备掩码推定部701、空间相关算出部602、延迟部401、空间相关算出部403以及空间滤波部404。

掩码推定部601基于频谱X(f，n)以及空间相关矩阵Φ_N(f，n)推定掩码M(f，n)。空间相关矩阵Φ_N(f，n)能够基于声音和噪声的到来方向的不同来推定掩码。

在将噪声源以平均0的高斯分布进行模型化时，噪声的频谱能够利用将空间相关矩阵Φ_N(f，n)视作协方差矩阵的多维复数高斯分布进行模型化。概率密度函数p_N(X(f，n))用以下(13)式被提供。

在此，det表示矩阵式，

表示方差。若将方差

用进行了最大似然估计的参数进行置换，则(13)式能够如(14)式那样进行变形。

在此，M表示麦克风的个数，C表示常数。另一方面，关于应强调的声音，由于没有关于协方差矩阵的信息，所以设定单位矩阵来作为初始值，进行与(14)式同样的式变形，得到表示概率密度函数p_s(X(f，n))的(15)式。

掩码M(f，n)能够按以下(16)式而求出。

空间相关算出部602按照上述(12)式，使用通过掩码推定部601推定出的掩码M(f，n)，算出空间相关矩阵Φ_s(f，n)。空间滤波部404能够基于所算出的空间相关矩阵Φ_s(f，n)生成空间滤波。

此外，也可以使得，使用所算出的空间相关矩阵Φ_s(f，n)更新概率密度函数p_s(X(f，n))以及掩码M(f，n)。空间相关算出部602例如通过以下(17)式，再次算出概率密度函数p_s(X(f，n))。

空间相关算出部602使用所算出的概率密度函数p_s(X(f，n))按照上述(16)式再次算出掩码。这样的掩码的更新也可以反复进行预定次数。

以上，第2实施方式的信号处理装置基于声音和噪声的波谱或到来方向的不同推定掩码，使用所推定出的掩码算出信号的空间相关矩阵。由此，能够更加准确地求出强调声音的空间滤波。由此，第2实施方式的信号处理装置能够更有效地强调目标声音。

(第3实施方式)

第3实施方式的信号处理装置相当于将设定延迟时间的设定部追加至第1实施方式的信号处理装置而得到的装置。

图8是示意性表示具备第3实施方式的信号处理装置的遥控装置800的框图，图9是示意性表示遥控装置800的外观的立体图。在图8以及图9中，对与图1以及图2示出的要素同样的要素标注同样的符号，且省略针对这些的要素的说明。

如图8所示，遥控装置800具备：麦克风101～104、声音强调部105、声音识别部106、通信部107、以及设定部801。设定部801设定在声音强调部105内的延迟部401中使用的延迟帧数(延迟时间)。

如图9所示，在遥控装置800设置有开关901。开关901在“Single”和“Multi”之间进行切换。在开关901位于“Single”侧的情况下，遥控装置800进行与第1实施方式的遥控装置100相同的工作。在第1实施方式中，作为命令字，设定“开关接通”、“温度提高”等的语句。在导入了空调以外的能够操作声音的其他设备的情况下，可能发生遥控装置为了对用于操作其他设备的用户发声进行反应而操作空调的情况。

遥控装置800具有如下功能，即，在开关901被切换至“Multi”侧的情况下，命令字被切换为“空调开关接通”、“空调温度提高”等在开头插入了“空调”的语句。这能够通过切换声音识别部106所存储着的命令字的列表而实现。另外，由于通过向命令字追加“空调”而命令字发声的持续长度变长，所以设定部801延长由延迟部401使用的延迟帧数。例如，在开关901位于“Multi”侧的情况下，设定部801将延迟时间设定为2秒，即，将延迟帧数设定为250。

以上，第3实施方式的信号处理装置构成为能够变更延迟时间。由此，能够将信号处理装置适用于能够切换长度不同的命令字的声音操作设备(例如遥控)。

此外，也可以使用与开关901分开单独设置的多级开关等要素来有级地调整延迟时间。通过精细调整延迟时间，能够使得与用户的说话速度相配合地提高识别性能。

(第4实施方式)

第4实施方式涉及在第3实施方式中说明过的开关被切换至“Multi”侧时的工作的变形例。在第3实施方式中，在开关被切换至“Multi”侧的情况下，向全部命令字的开头插入“空调”。在第4实施方式中，在开关被切换至“Multi”侧的情况下，追加“空调”这1个命令字。

图10是示意性表示具备第4实施方式的信号处理装置的遥控装置1000的框图。在图10中，对与图1所示的要素同样的要素标注同样的标号，且省略对这些要素的说明。如图10所示，遥控装置1000具备：麦克风101～104、声音强调部1001、声音识别部1002、以及通信部107。

当开关被切换至“Multi”侧时，声音强调部1001进行与第1实施方式的声音强调部105同样的工作，声音识别部1002向等待作为命令字之一的“空调”的状态转移。声音识别部1002在检测出命令字“空调”的情况下，将检测出命令字“空调”这一情况通知声音强调部1001，之后紧接着转移至等待“空调”以外的命令字的状态。声音识别部1002在检测出“空调”以外的命令字中的任一个的情况下，输出识别所检测出的命令字的命令字ID，返回至等待命令字“空调”的状态。另外，声音识别部1002在从状态转移起经过预定时间为止都没有检测出“空调”以外的命令字中的任何一个的情况下，返回至等待命令字“空调”的状态。

图11是示意性表示声音强调部1001的构成例的框图。在图11中，将与图3示出的要素同样的要素标注同样的标号，且省略对这些要素的说明。如图11所示，声音强调部1001具备：变换部301、强调部1101、以及逆短时傅立叶变换部305。

强调部1101从变换部301接收频谱X(f，n)。强调部1101按帧以及按频段对频谱X(f，n)进行波谱强调。具体而言、强调部1101包含与129个频段中的每一个对应的129个波谱强调部1102。各波谱强调部1102从变换部301接收频谱X(f，n)，对接收到的频谱X(f，n)进行波谱强调。波谱强调部1102从声音识别部1002接收表示检测出命令字“空调”这一情况的通知。针对各波谱强调部1102的详情，参照图12稍后说明。

图12示意性示出波谱强调部1102的构成例。图12所示的波谱强调部1102相当于图11所示的各个波谱强调部1102。在图12中，对与图4示出的要素同样的要素标注同样的标号，且省略对这些要素的说明。

如图12所示，波谱强调部1102具备：延迟部401、空间相关算出部402、空间相关算出部403、空间滤波部1201、以及空间滤波系数存储部1202。

空间滤波部1201与在第1实施方式中说明过的空间滤波部404同样地生成空间滤波(filter)，使形成空间滤波的系数存储于空间滤波系数存储部1202。空间滤波系数存储部1202针对从当前的帧到预定时间前的帧存储空间滤波系数。

空间滤波部1201在接收来自声音识别部1002的通知时，停止空间滤波的更新，从空间滤波系数存储部1202读出与预定时间(例如0.3秒)前的帧相关的空间滤波系数。空间滤波部1201将所读出的空间滤波系数设置(set)到空间滤波。空间滤波部1201在声音识别部1002处于等待“空调”以外的命令字的状态期间，对空间滤波进行固定而进行滤波(filtering)。

在命令字“空调”被检测出时，由于“空调”的发声已经结束，所以例如，通过利用0.3秒左右过去的空间滤波，能够利用“空调”发声中的稳定了的空间滤波。

在第4实施方式中，由于等待“空调”这1个语句，所以与第3实施方式比较，误工作减少。进而，由于命令字说话的持续长度被抑制得短，所以即使是不稳定的噪声也能进行比较的稳健的工作。由于紧接着“空调”的命令字部分也持续声音强调的效果，所以具有提高识别的精度这一效果。

此外，也可以取代空间滤波系数，预先存储空间相关算出部402、403的输出或频谱等的信息，空间滤波部1201基于该信息重新生成空间滤波。通过利用过去的适当的区间的数据生成空间滤波，能够进一步提高声音强调的效果。

关于各实施方式，上述的处理能通过通用处理器等的处理电路(processingcircuitry)而实现。

图13是表示一实施方式的计算机1300的硬件构成的一例的框图。如图13所示，计算机1300作为硬件而具备：CPU(Central Processing Unit)1301、RAM(Random AccessMemory)1302、程序存储器1303、辅助存储装置1304、输入输出接口1305、以及总线1306。CPU1301经由总线1306与RAM1302、程序存储器1303、辅助存储装置1304、以及输入输出接口1305通信。

CPU1301是通用处理器的一例。RAM1302作为工作(working)存储器供CPU1301使用。RAM1302包括SDRAM(Synchronous Dynamic Random Access Memory：同步动态存储器)等的易失性存储器。程序存储器1303存储包含信号处理程序的各种程序。作为程序存储器1303，例如，使用ROM(Read-Only Memory)、辅助存储装置1304的一部分、或它们的组合。辅助存储装置1304对数据进行非暂时性存储。辅助存储装置1304包含硬盘驱动器(HDD)或固态驱动器(SSD)等的非易失性存储器。

输入输出接口1305是用于与其他设备连接的接口。输入输出接口1305例如被使用于与麦克风101～104以及通信部107的连接。

存储于程序存储器1303的各程序包含计算机可执行命令。在程序(计算机可执行命令)通过CPU1301而被执行时，使CPU1301执行预定的处理。例如，信号处理程序在通过CPU1301而被执行时，使CPU1301执行关于声音强调部以及声音识别部而说明过的一系列处理。

程序也可以在存储于由计算机可读取的存储介质的状态下被提供给计算机1300。该情况下，例如，计算机1300还具备从存储介质读出数据的驱动器(未图示)，从存储介质取得程序。存储介质例包含磁盘、光盘(CD－ROM、CD－R、DVD－ROM、DVD－R等)、磁光盘(MO等)、半导体存储器。另外，也可以使得，将程序保存于通信网络上的服务器，计算机1300使用输入输出接口1305从服务器下载程序。

在实施方式中所说明的处理不限于通过CPU1301等的通用硬件处理器执行程序而进行，也可以通过ASIC(Application Specific Integrated Circuit：专用集成电路)等的专用硬件处理器进行。处理电路这一语句包含至少1个通用硬件处理器、至少1个专用硬件处理器、或至少1个通用硬件处理器与至少1个专用硬件处理器的组合。在图13所示的例子中，CPU1301、RAM1302、以及程序存储器1303相当于处理电路。

在以上说明过的至少一个实施方式的信号处理装置中，将通过在不同的位置检测声音而得到的第1检测信号向时频域变换而得到第2检测信号，基于第2检测信号算出第1空间相关矩阵，基于使第2检测信号延迟了预定的时间而得到的第3检测信号算出第2空间相关矩阵，基于第1空间相关矩阵以及第2空间相关矩阵生成空间滤波，利用空间滤波对第2检测信号进行滤波。由此，能够有效强调目标声音。

对本发明的几个实施方式进行了说明，但是这些实施方式是作为例子而提示的，并不意在限定发明的范围。这些新的实施方式能够以其他各种方式实施，在不脱离发明的要旨的范围内，能够进行各种省略、置换、变更。这些实施方式及其变形包含在发明的范围和要旨中，并且包含在权利要求的范围所记载的发明和与其均等的范围内。

此外，上述的实施方式能够汇总为以下的技术方案。

技术方案1

一种信号处理装置，具备：变换部，将通过在不同的位置检测声音而得到的第1检测信号向时频域变换而得到第2检测信号；第1算出部，基于所述第2检测信号算出第1空间相关矩阵；第2算出部，基于将所述第2检测信号延迟了预定的时间而得到的第3检测信号算出第2空间相关矩阵；以及空间滤波部，基于所述第1空间相关矩阵以及所述第2空间相关矩阵生成空间滤波，利用所述空间滤波对所述第2检测信号进行滤波。

技术方案2

在上述技术方案1中，所述第1算出部使用到第1时刻为止的所述第2检测信号，算出所述第1空间相关矩阵，以使得，从第2时刻到所述第1时刻为止的所述第2检测信号的贡献比到所述第2时刻为止的所述第2检测信号的贡献大，所述第2时刻是比所述第1时刻提前了所述预定的时间的时刻。

技术方案3

在上述技术方案1或2中，信号处理装置还具备掩码推定部，所述掩码推定部基于所述第2检测信号，推定表示各时间频率点上的目标信号占第1检测信号的比例的掩码，所述第1算出部基于所述第2检测信号和所述掩码算出所述第1空间相关矩阵。

技术方案4

在上述技术方案3中，所述掩码推定部基于所述第2检测信号和所述第2空间相关矩阵推定噪声与目标信号的到来方向的不同，由此推定所述掩码。

技术方案5

在上述技术方案3中，所述掩码推定部基于所述第2检测信号推定噪声与目标信号的波谱的不同，由此推定所述掩码。

技术方案6

在上述技术方案1至5中的任一个中，信号处理装置还具备设定部，所述设定部设定所述预定的时间。

技术方案7

在上述技术方案1至6中的任一个中，所述空间滤波是将所述第1空间相关矩阵设为信号的空间相关矩阵、将所述第2空间相关矩阵设为噪声的空间相关矩阵而得到的信噪比最大化波束成形。

技术方案8

在上述技术方案1至7中的任一个中，信号处理装置，还具备：声音识别部，对所述空间滤波部的输出，进行预先登记了的关键字的检测；和

存储部，存储与形成所述空间滤波的空间滤波系数、所述第1空间相关矩阵、以及所述第2空间相关矩阵中的至少1个相关的信息，所述空间滤波部在所述声音识别部检测出所述关键字的情况下，基于存储于所述存储部的所述信息生成所述空间滤波。

技术方案9

一种信号处理方法，是通过信号处理装置执行的信号处理方法，包括：将通过在不同的位置检测声音而得到的第1检测信号向时频域变换而得到第2检测信号，基于所述第2检测信号算出第1空间相关矩阵，基于使所述第2检测信号延迟了预定的时间而得到的第3检测信号算出第2空间相关矩阵，基于所述第1空间相关矩阵以及所述第2空间相关矩阵生成空间滤波，利用所述空间滤波对所述第2检测信号进行滤波。

技术方案10

一种存储介质，存储用于使计算机作为以下单元发挥功能的程序，将通过在不同的位置检测声音而得到的第1检测信号向时频域变换而得到第2检测信号的单元；基于所述第2检测信号算出第1空间相关矩阵的单元；基于使所述第2检测信号延迟了预定的时间而得到的第3检测信号算出第2空间相关矩阵的单元；基于所述第1空间相关矩阵以及所述第2空间相关矩阵生成空间滤波的单元；以及利用所述空间滤波对所述第2检测信号进行滤波的单元。

标号说明

100…遥控装置、101～104…麦克风、101…麦克风、105…声音强调部、106…声音识别部、107…通信部、110…框体、200…空调、301…变换部、302…短时傅立叶变换部、303…强调部、304…波谱强调部、305…逆短时傅立叶变换部、401…延迟部、402…空间相关算出部、403…空间相关算出部、404…空间滤波部、600…波谱强调部、601…掩码推定部、602…空间相关算出部、700…波谱强调部、701…掩码推定部、800…遥控装置、801…设定部、901…开关、1000…遥控装置、1001…声音强调部、1002…声音识别部、1101…强调部、1102…波谱强调部、1201…空间滤波部、1202…空间滤波系数存储部、1300…计算机、1301…CPU、1302…RAM、1303…程序存储器、1304…辅助存储装置、1305…输入输出接口、1306…总线。

Claims

1.一种信号处理装置，具备：

变换部，将通过在不同的位置检测声音而得到的第1检测信号向时频域变换而得到第2检测信号；

第1算出部，基于所述第2检测信号算出第1空间相关矩阵；

第2算出部，基于将所述第2检测信号延迟了预定的时间而得到的第3检测信号算出第2空间相关矩阵；以及

空间滤波部，基于所述第1空间相关矩阵以及所述第2空间相关矩阵生成空间滤波，利用所述空间滤波对所述第2检测信号进行滤波。

2.根据权利要求1所述的信号处理装置，

所述第1算出部使用到第1时刻为止的所述第2检测信号，算出所述第1空间相关矩阵，以使得，从第2时刻到所述第1时刻为止的所述第2检测信号的贡献比到所述第2时刻为止的所述第2检测信号的贡献大，所述第2时刻是比所述第1时刻提前了所述预定的时间的时刻。

3.根据权利要求1或2所述的信号处理装置，

还具备掩码推定部，所述掩码推定部基于所述第2检测信号，推定表示各时间频率点上的目标信号占第1检测信号的比例的掩码，

所述第1算出部基于所述第2检测信号和所述掩码算出所述第1空间相关矩阵。

4.根据权利要求3所述的信号处理装置，

所述掩码推定部基于所述第2检测信号和所述第2空间相关矩阵推定噪声与目标信号的到来方向的不同，由此推定所述掩码。

5.根据权利要求3所述的信号处理装置，

所述掩码推定部基于所述第2检测信号推定噪声与目标信号的波谱的不同，由此推定所述掩码。

6.根据权利要求1至5中任一项所述的信号处理装置，

还具备设定部，所述设定部设定所述预定的时间。

7.根据权利要求1至6中任一项所述的信号处理装置，

所述空间滤波是将所述第1空间相关矩阵设为信号的空间相关矩阵、将所述第2空间相关矩阵设为噪声的空间相关矩阵而得到的信噪比最大化波束成形。

8.根据权利要求1至7中任一项所述的信号处理装置，还具备：

声音识别部，对所述空间滤波部的输出，进行预先登记了的关键字的检测；和

存储部，存储与形成所述空间滤波的空间滤波系数、所述第1空间相关矩阵、以及所述第2空间相关矩阵中的至少1个相关的信息，

所述空间滤波部在所述声音识别部检测出所述关键字的情况下，基于存储于所述存储部的所述信息生成所述空间滤波。

9.一种信号处理方法，是通过信号处理装置执行的信号处理方法，包括：

将通过在不同的位置检测声音而得到的第1检测信号向时频域变换而得到第2检测信号，

基于所述第2检测信号算出第1空间相关矩阵，

基于使所述第2检测信号延迟了预定的时间而得到的第3检测信号算出第2空间相关矩阵，

基于所述第1空间相关矩阵以及所述第2空间相关矩阵生成空间滤波，

利用所述空间滤波对所述第2检测信号进行滤波。

10.一种存储介质，存储用于使计算机作为以下单元发挥功能的程序：

将通过在不同的位置检测声音而得到的第1检测信号向时频域变换而得到第2检测信号的单元；

基于所述第2检测信号算出第1空间相关矩阵的单元；

基于使所述第2检测信号延迟了预定的时间而得到的第3检测信号算出第2空间相关矩阵的单元；

基于所述第1空间相关矩阵以及所述第2空间相关矩阵生成空间滤波的单元；以及

利用所述空间滤波对所述第2检测信号进行滤波的单元。