CN111489750A

CN111489750A - 声音处理设备和声音处理方法

Info

Publication number: CN111489750A
Application number: CN202010074485.4A
Authority: CN
Inventors: 宫本正成; 大桥宏正; 田中直也
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2019-01-29
Filing date: 2020-01-22
Publication date: 2020-08-04
Also published as: US20200245066A1; JP6635394B1; JP2020122835A; US11089404B2

Abstract

本发明涉及一种声音处理设备和声音处理方法。目的是抑制由麦克风收集的说话者所发出的音质的劣化。声音处理设备包括：n个麦克风，其与n个人相对应地布置，并且主要收集各个相关人所发出的声音信号；滤波器，其使用n个麦克风所收集的声音信号，来抑制由与至少一个说话者相对应的麦克风收集的说话者声音信号中所包括的串音成分；参数更新器，其在满足包括至少一个说话者说话的时间的预定条件的情况下，更新用于抑制串音成分的滤波器的参数，并且将更新结果存储在存储器中；以及声音输出控制器，其从扬声器输出通过利用滤波器基于更新结果、从说话者声音信号中减去串音成分而获取到的声音信号。

Description

声音处理设备和声音处理方法

技术领域

本发明涉及声音处理设备和声音处理方法。

背景技术

例如，在车体的纵向方向上布置有多个(例如，两列或更多列)座椅的诸如厢式旅行车、货车或单厢车等的相对大的车辆中，考虑安装如下的声音技术，该声音技术用于在坐在驾驶座的驾驶员和坐在后排座的乘员(例如，驾驶员的家庭乘员或朋友)之间进行会话，播放能到达该后排座椅的汽车音频的音乐，或者使用各个座椅中所安装的麦克风和扬声器来在乘员或车载设备之间传递或输入/输出声音。

另外，近年来，发布了包括通信接口的大量车辆。通信接口具有无线通信功能，并且例如由移动电话网络(蜂窝网络)或无线局域网(LAN)等构建，因而还在车辆中建立了网络环境。驾驶员等例如经由通信接口访问因特网线路上的云计算系统(以下简称为“云”)，因而可以在驾驶时接收各种服务。

这里，作为在家用电器中使用云的声音技术其中之一，加速了自动声音识别系统的开发。自动声音识别系统作为用于接收云上的服务的人机接口而普及。自动声音识别系统将人类所发出的声音转换成文本数据等，并且使诸如计算机等的控制设备识别这些声音的内容。自动声音识别系统是取代使用人类手指的键盘输入的接口，并且能够通过更接近人类的操作来指示计算机等。具体地，在车辆中，在根据现有技术的基于驾驶员的驾驶中或者例如在以自动驾驶级别3的自动驾驶中，采用驾驶员的手指来操纵方向盘，因而存在引入针对车辆的自动声音识别所用的声音技术的必然动机。

根据国家公路交通安全管理局(NHTSA)，自动驾驶级别被分类为无驾驶自动化(级别0)、驾驶员辅助(级别1)、部分驾驶自动化(级别2)、有条件驾驶自动化(级别3)、高驾驶自动化(级别4)和完全驾驶自动化(级别5)。在级别3，自动驾驶系统主导驾驶，并且如有必要，则请求人类的驾驶。近年来，自动驾驶系统的级别3已投入实际使用。

作为根据现有技术的自动声音识别所用的声音技术，已知有如下的技术(例如，参考日本特开2017-76117，专利文献1)，该技术用于判断所发出的音频数据(声音信号)是否与热词相对应，产生被判断为与该热词该相对应的音频数据的热词音频指纹，并且在该热词音频指纹与先前存储的热词音频指纹一致的情况下，取消向发声的计算机装置的访问。

专利文献1：日本特开2017-76117

发明内容

然而，在日本特开2017-76117的结构中，在布置了不同的麦克风以与车体中的各个座椅相对应的情况下，存在如下的可能性：周围的其他乘员所发出的语音也被作为声音而收集到供说话者用的麦克风，其中该麦克风布置在与各个说话者的嘴分开大致规定距离的位置。其他乘员所发出的语音是所谓的串音成分，并且是极有可能使供说话者用的麦克风最初所收集的声音的音质劣化的额外声音信号。因此，供说话者用的各麦克风所收集的声音的音质由于串音成分而劣化，因而存在对说话者所发出的声音的识别性能劣化的问题。

本发明是考虑到上述的根据现有技术的情形而提出的，并且本发明的非限制性目的是提供如下的一种声音处理设备和声音处理方法，该声音处理设备和声音处理方法在与各个人相对应地布置了不同的麦克风的环境下，减轻基于周围的其他人所发出的声音的串音成分的影响，并且抑制由说话者发出且由相关麦克风收集的声音的音质的劣化。

本发明的一方面提供一种声音处理设备，包括：声音输出控制器，其至少包括：滤波器，其被配置为抑制包括在各个说话者声音信号中的由于其他说话者的发声而产生的各个串音成分，该各个说话者声音信号是在一个封闭空间中与n个人相对应地布置的n个麦克风所收集的，其中n是等于或大于2的整数，以及参数更新器，其被配置为更新用于抑制所述串音成分的所述滤波器的参数，并且将更新结果存储在存储器中；以及说话者状况检测器，其被配置为通过使用所述n个麦克风所收集的各个说话者声音信号，来检测所述封闭空间中与所述n个麦克风相对应的各个人的发声状况，其中，在所述说话者状况检测器判断为满足包括至少一个说话者说话的时间的预定条件的情况下，所述参数更新器更新用于抑制所述串音成分的所述滤波器的参数，并且将更新结果存储在所述存储器中，以及其中，所述声音输出控制器接收所述n个麦克风所收集的各个说话者声音信号，并且基于所述说话者状况检测器所检测到的所述封闭空间中的发声状况，来输出所接收到的说话者声音信号、以及通过针对所接收到的各个说话者声音信号利用所述滤波器抑制该说话者声音信号的所述串音成分而获取到的声音信号中的任一者。

本发明的另一方面提供一种声音处理方法，包括：抑制包括在各个说话者声音信号中的由于其他说话者的发声而产生的各个串音成分，该各个说话者声音信号是在一个封闭空间中与n个人相对应地布置的n个麦克风所收集的，其中n是等于或大于2的整数；使用所述n个麦克风所收集的各个说话者声音信号，来检测所述封闭空间中与所述n个麦克风相对应的各个人的发声状况；在判断为满足包括至少一个说话者说话的时间的预定条件的情况下，更新用于抑制所述串音成分的滤波器的参数，并且将更新结果存储在存储器中；以及基于所检测到的发声状况，来输出所接收到的说话者声音信号、以及通过针对所接收到的各个说话者声音信号利用所述滤波器抑制该说话者声音信号的所述串音成分而获取到的声音信号中的任一者。

根据本发明，可以在与各个人相对应地布置了不同的麦克风的环境下，减轻基于周围的其他人所发出的声音的串音成分的影响，并且抑制由说话者发出且由相关麦克风收集的声音的音质的劣化。

附图说明

在附图中：

图1是示出安装有根据第一实施例的声音处理系统的车辆的内部的平面图；

图2是示出声音处理系统的内部结构的示例的框图；

图3是示出声音处理器的内部结构的示例的图；

图4是示出与发声状况相对应的自适应滤波器的学习定时的示例的图；

图5是示出声音处理设备的操作的概要示例的图；

图6是示出单人说话区间的检测操作的概要示例的图；

图7是示出声音处理设备所进行的声音抑制处理的操作过程示例的流程图；

图8是示出根据第一实施例的设置表的登记内容的示例的图；

图9是示出针对串音抑制量的声音识别率和误报率的示例的曲线图；

图10是示出根据第一实施例的变形例的设置表的登记内容的示例的图；

图11是示出根据第二实施例的与发声状况相对应的自适应滤波器的学习定时的示例的图；以及

图12是示出根据第二实施例的设置表的登记内容的示例的图。

具体实施方式

为了有效地支持车辆内部的会话，例如，在豪华车中，在各个乘员坐着的各个座椅处布置有麦克风。豪华车上所安装的声音处理设备使用各麦克风所收集的声音来形成声音的指向性，由此增强作为面向麦克风的乘员的说话者(最初想说话的说话者)所说出的语音。因此，在车辆内部中声音向麦克风的传递特性理想的环境的情况下，听者(即，听众)容易听到说话者所说出的语音。由于车辆内部是狭窄空间，因此麦克风容易受到反射的声音影响。另外，由于正在移动的车辆的内部的轻微环境变化，因此实际上声音的传递特性相对于理想环境在一定程度上有所改变。因此，不能充分抑制在麦克风所收集的发声的声音信号中包括的、由于并非上述最初想说话的说话者的其他说话者所说出的语音而产生的串音成分，因而存在最初想说话的说话者所说出的语音的音质劣化的情况。另外，用于形成声音的指向性的麦克风是昂贵的。

这里，在以下的实施例中，将说明声音处理设备和声音处理方法的示例，该声音处理设备和声音处理方法能够使用廉价的麦克风来充分抑制基于并非是最初想说话的说话者的其他说话者的发声的串音成分。

以下将参考附图来详细说明具体公开根据本发明的声音处理设备和声音处理方法的结构和作用的实施例。存在省略了不必要详细的说明的情况。例如，存在省略了对已经众所周知的事项的详细说明或者针对实质上相同的结构的重复说明的情况。其原因是避免以下说明的不必要冗余，并且使本领域技术人员容易理解。附图和以下的说明是为了本领域技术人员充分理解本发明所提供的，并且并不意图限制权利要求书的主题。

(第一实施例)

图1是示出安装有根据第一实施例的声音处理系统5的车辆100的内部的平面图。声音处理系统5使用车载麦克风来收集声音并且从车载扬声器输出声音，使得在坐在驾驶座的驾驶员与坐在中间座椅和后排座椅各自的乘员之间可以进行平滑的会话。在以下的说明中，乘员可以包括驾驶员。

作为示例，车辆100是厢式旅行车。在车辆100的内部，在前后方向(换句话说，在车辆100的一直前进方向)上布置有三排座椅101、102和103。这里，针对各个座椅101、102和103存在两个乘员，包括驾驶员的总共六个乘员乘车。在车辆内部的仪表板104的前表面上，布置有麦克风mc1和麦克风mc2，其中麦克风mc1主要收集作为驾驶员的乘员h1所说出的语音，麦克风mc2主要收集坐在乘员座的乘员h2所说出的语音。另外，在座椅101的靠背部(包括头枕)，布置有分别主要收集乘员h3和h4所说出的语音的麦克风mc3和mc4。另外，在座椅102的靠背部(包括头枕)，布置有分别主要收集乘员h5和h6所说出的语音的麦克风mc5和mc6。另外，在车辆100的内部的各个麦克风mc1、mc2、mc3、mc4、mc5和mc6的附近，扬声器sp1、sp2、sp3、sp4、sp5和sp6分别被布置成与各个麦克风成对。在仪表板104的内部，以与n(n：等于或大于2的整数)个人(乘员)中的各个人相对应的方式布置声音处理设备10。声音处理设备10的布置位置不限于图1所示的位置(即，仪表板104的内部)。

在以下的实施例中，假定如下的示例：在诸如狭窄的车辆内部等的狭窄空间中说话者(例如，驾驶员或除驾驶员以外的乘员)所说出的语音由各乘员专用的且布置在该说话者的前方的麦克风收集，并且对该声音进行声音识别。在各乘员专用的麦克风中，还收集诸如存在于离说话者的嘴远的位置的其他乘员所发出的语音以及周围的噪声等的声音。该声音相对于说话者所说出的语音变为使声音的音质劣化的串音成分。在存在串音成分的情况下，麦克风所收集的声音的质量(音质)劣化，并且声音识别的性能下降。声音处理系统5抑制由与说话者相对应的麦克风收集的声音信号中所包括的串音成分，由此提高说话者所说出的语音的质量并且提高声音识别的性能。

随后，将参考图2来说明根据第一实施例的声音处理系统5的内部结构。为了便于理解以下的说明，例示两个人(例如，驾驶员和乘员座上的乘员)乘坐车辆100的用例，并且在假定车辆100中所布置的麦克风的数量是两个的情况下进行说明。然而，如图1所示，所布置的麦克风的数量不限于两个，并且可以等于或大于三个。图2是示出声音处理系统5的内部结构的示例的框图。声音处理系统5包括两个麦克风mc1和mc2、声音处理设备10、存储器M1、以及声音识别引擎30。存储器M1可以设置在声音处理设备10中。

麦克风mc1是驾驶员专用的麦克风，其布置在驾驶座的前方的仪表板104中，并且收集作为驾驶员的乘员h1所说出的语音。可以将基于麦克风mc1所收集的作为驾驶员的乘员h1的发声的声音信号称为说话者声音信号。

麦克风mc2是乘员座处的乘员专用的麦克风，该麦克风mc2布置在乘员座的前方的仪表板104中，并且主要收集乘员座处的乘员h2所说出的语音。可以将麦克风mc2所收集的基于乘员h2的发声的声音信号称为说话者声音信号。

麦克风mc1和mc2可以是指向性麦克风和全向性麦克风中的任何麦克风。这里，尽管例示了驾驶员的麦克风mc1和乘员座处的乘员的麦克风mc2作为图2所示的两个麦克风的示例，但可以使用中间座椅处的乘员专用的麦克风mc3和mc4或者后排座椅处的乘员专用的麦克风mc5和mc6。

声音处理设备10通过抑制由麦克风mc1和mc2收集的声音中所包括的串音成分来输出声音。声音处理设备10例如包括诸如数字信号处理器(DSP)等的处理器以及存储器。声音处理设备10包括频带分割器11、声音处理器12、说话者状况检测器13和频带合成器14，作为通过处理器的执行所实现的功能。

频带分割器11针对各固定的预定频带来对声音信号进行分割。在本实施例中，例如，针对500Hz的各频带来对声音信号进行分割，以提供例如0～500Hz、500Hz～1kHz、1kHz～1.5kHz、…。在诸如车辆内部等的狭窄空间的情况下，由于来自车辆内部的顶面或侧面的声音反射而导致在麦克风所收集的声音中容易发生串音，因而在进行声音处理的情况下，声音处理设备10容易受到串音影响。例如，存在如下的情况：在说话者所发出的声音中，特定频带被增强的声音由两个麦克风中的与说话者不相关的麦克风收集。在这种情况下，没有进行频带分割。因此，即使在比较两个麦克风的声压的情况下，也不会发生声压差，因而不能进行抑制与说话者不相关的麦克风的声音的处理。然而，在频带分割器11进行频带分割的情况下，在除特定频带被增强的声音以外的部分发生声压差。因此，声音处理器12可以进行抑制与说话者不相关的麦克风的声音的处理。

声音处理器12包括自适应滤波器20(参见图3)，该自适应滤波器20用于在除说话者以外的声音(例如，其他说话者所发出的声音)被输入至说话者专用的麦克风作为串音成分的情况下，通过进行串音成分减少处理来抑制除说话者以外的声音。在检测到实质上由例如一个说话者进行的发声(以下称为“单人说话(single talk)”)的情况下，声音处理器12学习自适应滤波器20以减少与串音成分相对应的声音，并且作为学习的结果更新自适应滤波器20的滤波器系数。如上述的日本特开2017-76117或日本特开2007-19595所述，自适应滤波器20可以通过控制有限脉冲响应(FIR)滤波器的抽头数或抽头系数来改变滤波器特性。

作为单人说话检测器的示例的说话者状况检测器13检测在车辆内部驾驶员或乘员正在说话的说话者状况(例如，上述的单人说话的区间)。说话者状况检测器13将说话者状况(例如，单人说话区间)的检测结果通知到声音处理器12。说话者状况不限于单人说话区间，并且可以包括无人说话的无发声区间。另外，说话者状况检测器13可以检测两个说话者正同时说话的区间(双人说话(double talk)区间)。

频带合成器14将通过分割而获取到的各个音域(sound range)中的被声音处理器12抑制了串音成分的声音信号进行合成，由此构成在串音成分被抑制之后获取到的声音信号。频带合成器14将合成后的声音信号输出至声音识别引擎30。

存储器M1例如包括随机存取存储器(RAM)和只读存储器(ROM)，并且临时存储进行声音处理设备10的操作所需的程序、以及在操作期间声音处理设备10的处理器所生成的数据或信息。RAM例如是在声音处理设备10的处理器工作的情况下使用的工作存储器。ROM预先存储用于控制例如声音处理设备10的处理器的程序和数据。另外，存储器M1保存与车辆100中所布置的各个麦克风(换句话说，与麦克风相关联地被主要收集声音信号的人)相关联的自适应滤波器20的滤波器系数。与麦克风相关联地被主要收集声音信号的人例如是坐在面向麦克风的座椅上的乘员。

声音识别引擎30识别由麦克风mc1和mc2收集的、并且由声音处理器12进行了抑制串音成分的处理的声音，并且输出声音识别结果。在扬声器sp1、sp2、sp3、sp4、sp5和sp6连接至声音识别引擎30的情况下，扬声器sp1、sp2、sp3、sp4、sp5和sp6中的任何扬声器输出进行了声音识别的声音作为声音识别引擎30所获取到的声音识别结果。例如，经由声音识别引擎30从扬声器sp1输出与主要是在麦克风mc1中收集的并且基于驾驶员的发声的声音相对应的声音识别结果。扬声器sp1、sp2、sp3、sp4、sp5和sp6各自可以是指向性扬声器和全向性扬声器中的任何扬声器。另外，声音识别引擎30的输出可用于在包括车厢的情况下进行的TV会议的系统、车内会话支持、以及车载电视的字幕(屏幕文字)等。另外，声音识别引擎30可以是车载设备，或者可以是从声音处理设备10经由广域网(图中未示出)连接的云服务器(图中未示出)。

图3是示出声音处理器12的内部结构的图。在例如检测到单人说话区间作为说话者状况检测器13所检测到的说话者状况的检测结果的情况下，声音处理器12在单人说话区间中学习自适应滤波器20的滤波器系数。另外，作为声音输出控制器的示例的声音处理器12抑制由例如麦克风mc1收集的声音信号中所包括的串音成分，并且输出声音信号。

为了便于理解声音处理器12的内部结构的示例，图3示出在抑制由麦克风mc1收集的声音信号中所包括的串音成分的情况下获取到的结构。也就是说，在加法器26的一个输入侧，原样输入麦克风mc1所收集的声音信号。在加法器26的另一输入侧，输入在由可变放大器22和自适应滤波器20处理了麦克风mc2所收集的声音信号之后获取到的声音信号作为串音成分。在抑制了由麦克风mc2收集的声音信号中所包括的串音成分的情况下，将以下的声音信号分别输入至加法器26。具体地，在加法器26的一个输入侧，原样输入麦克风mc2所收集的声音信号。在加法器26的另一输入侧，输入在由可变放大器22和自适应滤波器20处理了麦克风mc1所收集的声音信号之后获取到的声音信号作为串音成分。

声音处理器12包括自适应滤波器20、可变放大器22、范数计算器23、1/X单元24、滤波器系数更新处理器25和加法器26。

范数计算器23计算表示来自麦克风mc2的声音信号的大小的范数值。

1/X单元24通过乘法来对范数计算器23所计算出的范数值的倒数进行标准化，并且将标准化后的范数至输出至滤波器系数更新处理器25。

作为参数更新器的示例的滤波器系数更新处理器25基于说话者状况的检测结果、标准化后的范数值、麦克风mc2的声音信号和加法器26的输出来更新自适应滤波器20的滤波器系数，将更新后的滤波器系数(参数的示例)覆盖并存储在存储器M1中，并且将更新后的滤波器系数设置到自适应滤波器20。例如，滤波器系数更新处理器25基于标准化后的范数值、麦克风mc2的声音信号和加法器26的输出，来在检测到单人说话的区间中更新自适应滤波器20的滤波器系数(参数的示例)。

可变放大器22根据范数计算器23所计算出的范数值来放大麦克风mc2的声音信号。

作为滤波器的示例的自适应滤波器20是包括抽头的FIR滤波器，并且根据作为在更新之后获取到的参数的示例的滤波器系数(抽头系数)来抑制麦克风mc2的被可变放大器22放大后的声音信号。

加法器26将麦克风mc2的被自适应滤波器20抑制后的声音信号与麦克风mc1的声音信号相加，并且输出相加后的结果。后面将参考等式来说明在加法器26中进行的处理的详情。

图4是示出与发声状况相对应的自适应滤波器20的学习定时的示例的图。说话者状况检测器13准确地判断单人说话区间，并且检测正在说话的乘员h1或乘员h2。

在作为说话者的仅一个乘员h1正在说话的单人说话区间的[状况1]中，声音处理器12学习自适应滤波器20的针对乘员h2专用的麦克风mc2的滤波器系数。

另外，在作为说话者的仅一个乘员h2正在说话的单人说话区间的[状况2]中，声音处理器12学习自适应滤波器20的针对乘员h1专用的麦克风mc1的滤波器系数。

另外，在包括作为说话者的乘员h1和h2的两个人正同时说话的[状况3]中，声音处理器12不学习自适应滤波器20的针对作为说话者的乘员h1专用的麦克风mc1的滤波器系数、以及自适应滤波器20的针对作为说话者的乘员h2专用的麦克风mc2的滤波器系数。

另外，在包括乘员h1和h2的两个人没有正在说话的[状况4]中，声音处理器12不学习自适应滤波器20的针对乘员h1专用的麦克风mc1的滤波器系数、以及自适应滤波器20的针对乘员h2专用的麦克风mc2的滤波器系数。

随后，将说明根据第一实施例的声音处理系统5的操作。

图5是示出声音处理设备10的操作的概要示例的图。麦克风mc1和mc2所收集的声音的声音信号被输入至声音处理设备10。频带分割器11对麦克风mc1和mc2所收集的声音进行频带分割。在该频带分割中，例如，按500Hz的各频带，在可听频带(30Hz～23kHz)的音域中对声音信号进行分割。具体地，将声音信号分割成0～500Hz的频带的声音信号、500Hz～1kHz的频带的声音信号、1kHz～1.5kHz的频带的声音信号、…。说话者状况检测器13针对通过分割所获取到的各频带，检测是否存在单人说话区间。在所检测到的单人说话区间中，声音处理器12例如更新用于抑制由除说话者以外的乘员专用的麦克风收集的声音信号中所包括的串音成分的自适应滤波器20的滤波器系数，并且将更新结果存储在存储器M1中。声音处理器12使用被设置了存储器M1中所存储的最新滤波器系数的自适应滤波器20来抑制由麦克风mc1和mc2收集的声音信号中所包括的串音成分(换句话说，其他人的成分)，并且输出在抑制之后获取到的声音信号。频带合成器14将针对各频带所抑制的声音信号进行合成，并且将合成后的声音信号从声音处理设备10输出。

图6是示出单人说话区间的检测操作的概要示例的图。在检测到单人说话区间的情况下，说话者状况检测器13例如进行以下的操作。尽管为了便于说明、图6示出说话者状况检测器13使用时间轴上的声音信号来进行分析的情况，但时间轴上的声音信号可被转换成频率轴上的声音信号，然后可以使用该声音信号来进行分析。

说话者状况检测器13对麦克风mc1和mc2所收集的声音信号进行相关性分析。在麦克风mc1和mc2之间的距离短(麦克风mc1和mc2彼此接近)的情况下，在两个声音信号之间发生相关性。说话者状况检测器13使用相关性的有/无来判断单人说话。

说话者状况检测器13对两个声音信号进行频带分割。该频带分割使用上述的方法来进行。在如车辆内部那样的狭窄空间的情况下，麦克风容易受到声音的反射影响，并且特定频带的声音由于声音的反射而被增强。在进行频带分割的情况下，几乎不受所反射的声音影响。

说话者状况检测器13针对通过分割所获取到的各频带，通过计算麦克风mc1和mc2所收集的声音信号的声压级的绝对值来进行平滑化。说话者状况检测器13通过例如将存储器M1中所存储的过去的声压级的绝对值与平滑化后的声压级的绝对值进行比较来检测单人说话区间的有无。

说话者状况检测器13可以计算麦克风mc1和mc2所收集的声音信号的声压级的绝对值，并且可以通过在特定区间中进行平滑化来计算多个平滑后的声压级。在一侧麦克风的附近产生突变声音的情况下，仅一侧的平滑化后的信号变大，因而说话者状况检测器13可以避免错误地判断说话者的声音的声音区间。

另外，说话者状况检测器13可以通过估计说话者的位置来检测单人说话区间。例如，说话者状况检测器13通过除了使用麦克风mc1和mc2所收集的当前声音信号之外、还使用从过去到现在(例如，从发声的开始到结束)的声音信号以比较这些声音信号，来估计说话者存在的位置。

另外，说话者状况检测器13可以通过抑制由麦克风mc1和mc2收集的声音信号中所包括的噪声来提高单人说话的检测精度。在噪声源的声压大并且声音信号的S/N差的情况下、或者在一侧麦克风的附近存在正常噪声源的情况下，说话者状况检测器13可以通过抑制噪声来估计说话者的位置。

此外，说话者状况检测器13在无需分析声音的情况下或者连同声音一起，可以通过基于车载照相机(图中未示出)的图像而分析说话者的嘴的移动来检测单人说话。

图7是示出声音处理设备10所进行的声音抑制处理的操作过程示例的流程图。声音处理设备10是在例如点火开关接通的情况下被驱动的，并且开始声音抑制处理。

在图7中，声音处理设备10获取麦克风mc1和mc2所收集的声音信号(S1)。声音处理器12例如获取保存在存储器M1中的长时间(例如，100msec)的参考信号(S2)。该参考信号是如下的声音信号，该声音信号是在作为说话者的乘员h1正向着麦克风mc1说话的情况下由麦克风mc1和mc2收集的、并且是由作为说话者的乘员h1说出的。例如，在作为长时间的参考信号、将一个样本设置为1msec的情况下，获取与100个样本(100msec)相对应的声音信号。

说话者状况检测器13获取说话者状况的信息(S3)。在该说话者状况中，说话者状况检测器13分析正在说话的人，并且检测是否存在单人说话区间。在单人说话区间的检测中，使用以上参考图6所述的用于检测单人说话区间的方法。另外，在车辆内部安装有车载照相机(未图示)的情况下，说话者状况检测器13可以获取车载照相机所拍摄到的面部图像的图像数据，并且可以基于该面部图像来指定说话者。

由于说话者状况检测器13掌握了在特定时间正在说话的人，因此声音处理器12获取(选择)要使用的自适应滤波器20的滤波器系数，以与该特定时间的说话者相对应(S4)。例如，在作为说话者的乘员h1正在说话的情况下，从麦克风mc2所收集的声音信号中选择用于抑制作为说话者的乘员h1的声音信号的自适应滤波器20的参数(参考以上说明)，并且使用该参数。声音处理器12读取存储器M1中所存储的所学习的最新滤波器系数，并且将该最新滤波器系数设置到自适应滤波器20。另外，声音处理器12通过覆盖并顺次更新存储器M1中所存储的滤波器系数来提高自适应滤波器20的收敛速度。

声音处理器12基于与说话者状况相对应的设置表Tb1(参见图8)来估计由麦克风mc1收集的声音信号中所包括的串音成分，并且抑制该串音成分(S5)。例如，在抑制了由麦克风mc1收集的声音信号中所包括的串音成分的情况下，基于麦克风mc2所收集的声音信号来抑制串音成分(参见图8)。

声音处理器12判断是否存在自适应滤波器20的滤波器学习区间(S6)。在第一实施例中，滤波器学习区间例如是单人说话区间。其原因在于，例如，在单人说话区间的情况下，乘坐车辆100的乘员中的一个人实质上成为说话者，并且基于该说话者的发声的声音信号在从与除该说话者以外的人相对应的专用麦克风所收集的声音信号来看的情况下可能变为串音成分，因而可以能够使用与除说话者以外的人相对应的专用麦克风所收集的声音信号来计算抑制串音成分的滤波器系数。在存在滤波器学习区间的情况下(S6中为“是”)，声音处理器12更新自适应滤波器20的滤波器系数，并且将更新结果存储在存储器M1中(S7)。之后，声音处理器12结束该处理。相反，在步骤S6中不存在滤波器学习区间的情况下(S6中为“否”)，声音处理器12在不更新自适应滤波器20的滤波器系数的情况下结束该处理。

图8是示出根据第一实施例的设置表Tb1的登记内容的示例的图。在设置表Tb1中，针对说话者状况检测器13所获取到的说话者状况的各检测结果，以彼此相关联的方式登记滤波器系数的更新的有无、串音抑制处理的有无、以及用于获取从声音处理设备10输出的表示声音信号的大小的参数(例如，声压)的等式。

例如，在说话者状况检测器13检测到不存在说话者这一事实作为说话者状况的检测结果的情况下，滤波器系数更新处理器25不更新自适应滤波器20的滤波器系数。在这种情况下，滤波器系数更新处理器25分别选择保存在存储器M1中且与最新的麦克风mc1和mc2(换句话说，说话者)相对应的滤波器系数，并且将各个滤波器系数设置到自适应滤波器20。因此，声音处理器12的(加法器26)根据等式(1)和(2)来对麦克风mc1和mc2所收集的任何声音信号进行串音抑制处理。也就是说，加法器26进行从麦克风mc1和mc2分别收集的声音信号中减去使用分别选择的滤波器系数所抑制的串音成分的处理。

y1＝m1-w21*m2 (1)

y2＝m2-w12*m1 (2)

在等式(1)和(2)中，m1是表示麦克风mc1所收集的声音信号的大小的声压，m2是表示麦克风mc2所收集的声音信号的大小的声压，y1是表示在对麦克风mc1所收集的串音成分进行抑制之后获取到的声音信号的大小的声压，并且y2是表示在对麦克风mc2所收集的串音成分进行抑制之后获取到的声音信号的大小的声压。另外，系数w12是用于使用麦克风mc1来从麦克风mc2的声音信号中抑制基于作为说话者的乘员h1的发声的串音成分的滤波器系数，并且系数w21是用于使用麦克风mc2来从麦克风mc1的声音信号中抑制基于作为说话者的乘员h2的发声的串音成分的滤波器系数。另外，符号*指示表示卷积运算的运算符。

随后，例如，在检测到说话者是乘员h1这一事实作为说话者状况检测器13所获取到的说话者状况的检测结果的情况(单人说话区间)中，滤波器系数更新处理器25更新自适应滤波器20的针对麦克风mc2的滤波器系数。在这种情况下，滤波器系数更新处理器25分别选择保存在存储器M1中且与麦克风mc1(换句话说，说话者)相对应的最新滤波器系数、以及针对先前样本(在时间轴上)或先前帧(在频率轴上)的声音信号进行了更新且与麦克风mc2(换句话说，除该说话者以外的说话者)相对应的滤波器系数，并且将这些滤波器系数设置到自适应滤波器20。因此，声音处理器12的(加法器26)根据等式(1)和(2)来对麦克风mc1和mc2所收集的任何声音信号进行串音抑制处理。也就是说，加法器26进行从麦克风mc1和mc2分别收集的声音信号中减去使用分别选择的滤波器系数所抑制的串音成分的处理。具体地，由于乘员h1是说话者，因此在麦克风m2中收集到基于乘员h1的发声的声音信号作为串音成分，并且与不存在说话者的情况相比，学习并更新系数w12使得可以抑制串音成分，由此基于等式(2)，y2使得输出串音成分被充分抑制的声音信号。

随后，例如，在检测到说话者是乘员h2这一事实作为说话者状况检测器13所获取到的说话者状况的检测结果的情况(单人说话区间)中，滤波器系数更新处理器25更新自适应滤波器20的针对麦克风mc1的滤波器系数。在这种情况下，滤波器系数更新处理器25分别选择保存在存储器M1中且与麦克风mc2(换句话说，说话者)相对应的最新滤波器系数、以及针对先前样本(在时间轴上)或先前帧(在频率轴上)的声音信号进行了更新且与麦克风mc1(换句话说，除该说话者以外的说话者)相对应的滤波器系数，并且将这些滤波器系数设置到自适应滤波器20。因此，声音处理器12的(加法器26)根据等式(1)和(2)来对麦克风mc1和mc2所收集的所有声音信号进行串音抑制处理。也就是说，加法器26进行从麦克风mc1和mc2分别收集的声音信号中减去使用分别选择的滤波器系数所抑制的串音成分的处理。具体地，由于乘员h2是说话者，因此在麦克风mc1中收集到基于乘员h2的发声的声音信号作为串音成分，并且与不存在说话者的情况相比，学习并更新系数w21使得可以抑制串音成分，因而基于等式(1)，y1使得输出串音成分被充分抑制的声音信号。

随后，例如，在检测到包括乘员h1和h2的两个说话者这一事实作为说话者状况检测器13所获取到的说话者状况的检测结果的情况下，滤波器系数更新处理器25不更新自适应滤波器20的滤波器系数。在这种情况下，滤波器系数更新处理器25分别选择保存在存储器M1中且与最新的麦克风mc1和mc2(换句话说，说话者)相对应的滤波器系数，并且将各个滤波器系数设置到自适应滤波器20。因此，声音处理器12(的加法器26)根据等式(1)和(2)来对麦克风mc1和mc2所收集的任何声音信号进行串音抑制处理。也就是说，加法器26进行从麦克风mc1和mc2分别收集的声音信号中减去使用分别选择的滤波器系数所抑制的串音成分的处理。

作为根据第一实施例的声音处理系统5的用例，例如，假定识别出驾驶员所发出的声音、但坐在乘员座上的乘员所发出的声音未被识别为串音成分的情况。通常，在不存在串音的情况下，声音识别率为100％并且误报率为0％。另外，在存在串音的情况下，声音识别率降至约20％，并且误报率达到约90％。

图9是示出针对串音抑制量的声音识别率和误报率的示例的曲线图。曲线图g1表示针对串音抑制量的声音识别率。该曲线图的纵轴表示声音识别率(％)，并且横轴表示串音抑制量(dB)。识别率随着串音抑制量的增加而逐渐提高。例如，在串音抑制量为18dB的情况下，识别率接近100％并且变得稳定。

另外，曲线图g2表示针对串音抑制量的声音的误报率。该曲线图的纵轴表示声音的误报率(％)，并且横轴表示串音抑制量(dB)。误报率随着串音抑制量的增加而逐渐下降。例如，在串音抑制量变为21dB的情况下，误报率降至接近0％并且变得稳定。

在第一实施例中，说明了在时间轴上进行声音处理的情况。然而，可以在频率轴上进行声音处理。在频率轴上进行声音处理的情况下，声音处理设备10通过对与一帧(例如，20～30个样本)相对应的声音信号进行傅立叶变换来进行频率分析，并且获取声音信号。另外，在频率轴上进行声音处理的情况下，不需要由频带分割器11对声音信号进行频带分割的处理。

在根据第一实施例的声音处理系统5中，不论正在说话的乘员的有无，都对乘员专用的各个麦克风所收集的声音信号进行串音抑制处理。因此，在产生除乘员以外的声音(例如，怠速声音或诸如噪声等的稳定声音)的情况下，可以抑制串音成分。

如上所述，根据第一实施例的声音处理设备10包括：两个麦克风mc1和mc2，其分别被布置成面向两个乘员h1和h2，并且专用于各个乘员；自适应滤波器20，用于使用两个麦克风mc1和mc2分别收集的声音信号来抑制由与至少一个说话者相对应的专用麦克风收集的说话者声音信号中所包括的串音成分；滤波器系数更新处理器25，用于在满足包括单人说话区间(至少一个说话者说话的时间)的预定条件的情况下，更新用于抑制串音成分的自适应滤波器20的滤波器系数(参数的示例)，并且将更新结果存储在存储器M1中；以及声音处理器12，用于从扬声器sp1输出如下的声音信号，该声音信号是通过从说话者声音信号中减去被自适应滤波器20基于更新结果所抑制的串音成分而获取到的。

因此，声音处理设备10可以在诸如车辆等的狭窄空间(封闭空间)中布置有各乘员专用的麦克风的环境下，减轻由于周围的其他乘员所发出的声音而产生的串音成分的影响。因此，声音处理设备10可以精确地抑制说话者所发出的并且由各乘员专用的麦克风收集的声音的音质的劣化。

另外，声音处理设备10还包括说话者状况检测器13，该说话者状况检测器13使用两个麦克风mc1和mc2各自所收集的声音信号来针对各频带检测一个说话者实质上正在说话的单人说话区间。在说话者状况检测器13检测到单人说话区间的情况下，声音处理器12在认为满足预定条件时，使用说话者声音信号中所包括的除说话者以外的人的声音信号作为串音成分，来更新自适应滤波器20的滤波器系数。因此，声音处理设备10可以优化自适应滤波器20的滤波器系数，使得可以将在实质上存在仅一个说话者的情况下基于该说话者的发声的说话者声音信号作为串音成分来抑制。例如，声音处理设备10可以从由除说话者以外的乘员专用的麦克风收集的声音中高精度地减少由说话者专用的麦克风收集的声音中所包括的串音成分。

另外，在说话者状况检测器13检测到除单人说话区间以外的区间的情况下，声音处理器12的滤波器系数更新处理器25在认为不满足预定条件时，不更新自适应滤波器20的滤波器系数。声音处理设备10输出如下的声音信号，该声音信号是通过从说话者声音信号中减去由自适应滤波器20例如基于存储器M1中所存储的最新滤波器系数的更新结果所抑制的串音成分而获取到的。因此，在不存在单人说话区间的情况下，声音处理设备10可以避免由于省略自适应滤波器20的滤波器系数的更新而导致滤波器系数未被优化的情况。另外，其他乘员可以清楚地听到说话者的声音。

另外，在说话者状况检测器13检测到无人说话的无发声区间的情况下，自适应滤波器20抑制串音成分。声音处理器12输出如下的声音信号，该声音信号是通过从两个麦克风mc1和mc2各自所收集的声音信号中减去由自适应滤波器20例如基于存储器M1中所存储的最新滤波器系数的更新结果所抑制的串音成分而获取到的。因此，声音处理设备10可以减少怠速声音、噪声或回声等。

另外，在说话者状况检测器13检测到单人说话区间的情况下，自适应滤波器20抑制由与单人说话区间的说话者相对应的专用麦克风收集的除该说话者以外的声音信号中所包括的串音成分。声音处理器12输出如下的声音信号，该声音信号是通过从说话者声音信号中减去由自适应滤波器20例如基于存储器M1中所存储的最新滤波器系数的更新结果所抑制的串音成分而获取到的。因此，声音处理设备10可以减少除说话者以外的声音、怠速声音、噪声或回声。

(第一实施例的变形例)

在第一实施例中，不论说话者状况的类型如何，声音处理设备10都正常对与正在说话的乘员相对应的专用麦克风所收集的声音信号进行串音抑制处理(参见图8)。在第一实施例的变形例中，说明如下的示例：声音处理设备10例如在检测到单人说话区间的情况下，不对由与正在说话的乘员相对应的专用麦克风收集的声音信号进行串音抑制处理。另外，在检测到无人说话的无发声区间的情况下，声音处理设备10不进行串音抑制处理(参见图10)。

在第一实施例的变形例中，声音处理系统5的内部结构与根据第一实施例的声音处理系统5的内部结构相同。通过向相同的结构赋予相同的附图标记来简化或省略描述，并且将说明不同的内容。

图10是示出根据第一实施例的变形例的设置表Tb2的登记内容的示例的图。在设置表Tb2中，针对说话者状况检测器13所获取到的说话者状况的各检测结果，以彼此相关联的方式登记滤波器系数的更新的有无、串音抑制处理的有无、以及用于获取从声音处理设备10输出的表示声音信号的大小的参数(例如，声压)的等式。

例如，在说话者状况检测器13检测到不存在说话者这一事实作为说话者状况的检测结果的情况下，滤波器系数更新处理器25不更新自适应滤波器20的滤波器系数。另外，在声音处理器12中，如等式(3)和(4)所示，不对麦克风mc1和mc2所收集的任何声音信号进行串音抑制处理。也就是说，声音处理器12原样输出麦克风mc1和mc2所收集的所有声音信号。

y1＝m1 (3)

y2＝m2 (4)

在等式(3)和(4)中，m1是表示麦克风mc1所收集的声音信号的大小的声压，m2是表示麦克风mc2所收集的声音信号的大小的声压，y1是表示在抑制麦克风mc1所收集的串音成分之后获取到的声音信号的大小的声压，并且y2是表示在抑制麦克风mc2所收集的串音成分之后获取到的声音信号的大小的声压。

随后，例如，在检测到说话者是乘员h1这一事实作为说话者状况检测器13所获取到的说话者状况的检测结果的情况(单人说话区间)中，滤波器系数更新处理器25更新自适应滤波器20的针对麦克风mc2的滤波器系数。在第一实施例的变形例中，在仅乘员h1实质上正在讲话的情况下，不对麦克风mc1所收集的声音信号(说话者声音信号)进行串音抑制处理(参考等式(5))。其原因在于，认为在由于乘员h2没有正在说话、因而添加难以基于乘员h2的发声来生成串音成分这一事实时，即使在原样输出麦克风mc1所收集的声音信号(说话者声音信号)的情况下，也难以产生音质的劣化。相反，与第一实施例同样地，对麦克风mc2所收集的声音信号(说话者声音信号)进行串音抑制处理(参见等式(6))。

y1＝m1 (5)

y2＝m2-w12*m1 (6)

在等式(6)中，w12是用于使用麦克风mc1来从麦克风mc2的声音信号中抑制基于乘员h1的发声的串音成分的滤波器系数。

随后，例如，在检测到说话者是乘员h2这一事实作为说话者状况检测器13所获取到的说话者状况的检测结果的情况(单人说话区间)中，滤波器系数更新处理器25进行自适应滤波器20的针对麦克风mc2的滤波器系数的更新。然而，在第一实施例的变形例中，同样，在仅乘员h2实质上正在说话的情况下，与第一实施例同样地，对麦克风mc1所收集的声音信号(说话者声音信号)进行串音抑制处理(参考等式(7))。相反，不对麦克风mc2所收集的声音信号(说话者声音信号)进行串音抑制处理(参见等式(8))。其原因在于，认为通过由于乘员h1没有正在说话、因而添加难以基于乘员h1的发声来生成串音成分这一事实，使得即使在原样输出麦克风mc2所收集的声音信号(说话者声音信号)的情况下也难以产生音质的劣化。

y1＝m1-w21*m2 (7)

y2＝m2 (8)

在等式(7)中，w21是用于使用麦克风mc2来从麦克风mc1的声音信号中抑制基于乘员h2的发声的串音成分的滤波器系数。

随后，例如，在检测到存在包括乘员h1和h2的两个说话者这一事实作为说话者状况检测器13所获取到的说话者状况的检测结果的情况下，滤波器系数更新处理器25不更新自适应滤波器20的滤波器系数。在这种情况下，滤波器系数更新处理器25分别选择保存在存储器M1中且与最新的麦克风mc1和mc2(换句话说，说话者)相对应的滤波器系数，并且将各个滤波器系数设置到自适应滤波器20。因此，与第一实施例同样地，声音处理器12的(加法器26)根据等式(1)和(2)来对麦克风mc1和mc2所收集的所有声信号进行串音抑制处理。也就是说，加法器26进行从麦克风mc1和mc2分别收集的声音信号中减去使用分别选择的滤波器系数所抑制的串音成分的处理。

如上所述，在根据第一实施例的变形例的声音处理系统5中，在至少一个人正在说话的情况下，对没有正在说话的乘员专用的麦克风所收集的声音信号进行串音抑制处理(参见图10)。因此，在没有正在说话的乘员专用的麦克风中，正在说话的乘员的声音信号被抑制，由此是几乎无声的状态。相比之下，在与正在说话的乘员相对应的专用麦克风中，由于其他乘员没有正在说话，因此不进行串音抑制处理。如上所述，声音处理系统5可以仅在需要的情况下才进行串音抑制处理。

另外，在检测到无人说话的无发声区间的情况下，自适应滤波器20不抑制串音成分。声音处理设备10原样输出两个麦克风mc1和mc2各自所收集的声音信号。以这种方式，声音处理设备10在无发声区间中不抑制串音成分，因而麦克风所收集的声音信号变得清晰。

另外，在检测到单人说话区间的情况下，自适应滤波器20不抑制说话者声音信号中所包括的串音成分。声音处理设备10原样输出由与说话者相对应的专用麦克风收集的声音信号。在单人说话区间中，不存在基于除说话者以外的人的发声的声音信号，因而即使在串音成分未被抑制的情况下，说话者声音信号也变得清晰。

(第二实施例)

在第一实施例中，在检测到单人说话区间的情况下，声音处理器12更新与对应于说话者的专用麦克风相关联的滤波器系数。在第二实施例中，将说明如下的示例：在不限于检测到单人说话区间的情况时，即使在例如两个说话者正同时说话的情况(双人说话区间)下，声音处理器12也更新滤波器。

图11是示出根据第二实施例的与发声状况相对应的自适应滤波器20的学习定时的示例的图。说话者状况检测器13准确地判断单人说话区间，并且检测乘员h1和乘员h2是否正在说话。

在作为一个说话者的仅一个乘员h1正在说话的单人说话区间的[状况1]中，声音处理器12学习自适应滤波器20的针对乘员h2专用的麦克风mc2的滤波器系数。

另外，在包括作为说话者的乘员h1和h2的两个人正在同时说话的双人说话区间的[状况3]中，声音处理器12学习自适应滤波器20的针对作为说话者的乘员h1专用的麦克风mc1的滤波器系数和自适应滤波器20的针对作为说话者的乘员h2专用的麦克风mc2的滤波器系数中的任何滤波器系数。

另外，在包括乘员h1和h2的两个人都没有正在说话的[状况4]中，声音处理器12不学习自适应滤波器20的针对乘员h1专用的麦克风mc1的滤波器系数、以及自适应滤波器20的针对乘员h2专用的麦克风mc2的滤波器系数。

另外，在说话者状况检测器13除检测到单人说话之外、还检测到两个说话者正在同时说话的状况(双人说话)的情况下，说话者状况检测器13将检测结果通知到声音处理器12。声音处理器12在单人说话区间和双人说话区间各自中学习与对应于说话者的麦克风相关联的自适应滤波器20的滤波器系数。

在第二实施例中，声音处理系统5的内部结构与根据第一实施例的声音处理系统5的内部结构相同。通过向相同的结构赋予相同的符号来简化或省略说明，并且将说明不同的内容。

图12是示出根据第二实施例的设置表Tb3的登记内容的示例的图。在设置表Tb3中，针对说话者状况检测器13所获取到的说话者状况的各检测结果，以彼此相关联的方式登记滤波器系数的更新的有无、串音抑制处理的有无、以及用于获取从声音处理设备10输出的表示声音信号的大小的参数(例如，声压)的等式。

例如，在说话者状况检测器13检测到不存在说话者这一事实作为说话者状况的检测结果的情况下，滤波器系数更新处理器25不更新自适应滤波器20的滤波器系数。在这种情况下，滤波器系数更新处理器25分别选择保存在存储器M1中且与最新的麦克风mc1和mc2(换句话说，说话者)相对应的滤波器系数，并且将各个滤波器系数设置到自适应滤波器20。因此，与第一实施例的变形例同样地，在声音处理器12中，根据等式(3)和(4)，不对麦克风mc1和mc2所收集的任何声音信号进行串音抑制处理。也就是说，声音处理器12原样输出麦克风mc1和mc2所收集的所有声音信号。

随后，例如，在检测到说话者是乘员h1这一事实(在参考图12的说明中称为“状况A”)作为说话者状况检测器13所获取的说话者状况的检测结果的情况(单人说话区间)中，滤波器系数更新处理器25更新自适应滤波器20的针对麦克风mc2的滤波器系数。在这种情况下，滤波器系数更新处理器25分别选择保存在存储器M1中且与麦克风mc1(换句话说，说话者)相对应的最新滤波器系数、以及针对先前样本(在时间轴上)或先前帧(在频率轴上)的声音信号进行了更新且与麦克风mc2(换句话说，除该说话者以外的说话者)相对应的滤波器系数，并且将这些滤波器系数设置到自适应滤波器20。因此，声音处理器12的(加法器26)根据等式(9)和(10)来对麦克风mc1和mc2所收集的任何声音信号进行串音抑制处理。

y1＝m1-w21A*m2 (9)

y2＝m2-w12A*m1 (10)

在等式(9)和(10)中，系数w12A是用于在状况A中、使用麦克风mc1来从麦克风mc2的声音信号中抑制基于作为说话者的乘员h1的发声的串音成分的滤波器系数。同样，系数w21A是用于在状况A中、使用麦克风mc2来从麦克风mc1的声音信号中抑制基于作为说话者的乘员h2的发声的串音成分的滤波器系数。

也就是说，加法器26进行从麦克风mc1和mc2分别收集的声音信号中减去如下的串音成分的处理，该串音成分是使用与说话者状况检测器13所检测到的说话者状况(即，“状况A”)相对应地分别选择的滤波器系数而进行抑制的。具体地，由于乘员h1是说话者，因此在麦克风m2中收集基于乘员h1的发声的声音信号作为串音成分。此外，由于与不存在说话者的情况相比、学习并更新系数w12A使得可以抑制串音成分，因此基于等式(10)，输出y2作为串音成分被充分抑制的声音信号。

随后，例如，在检测到说话者是乘员h2这一事实(在参考图12的说明中称为“状况B”)作为说话者状况检测器13所获取到的说话者状况的检测结果的情况(单人说话区间)中，滤波器系数更新处理器25更新自适应滤波器20的针对麦克风mc1的滤波器系数。在这种情况下，滤波器系数更新处理器25分别选择保存在存储器M1中且与麦克风mc2(换句话说，说话者)相对应的最新滤波器系数、以及针对先前样本(在时间轴上)或先前帧(在频率轴上)的声音信号进行了更新且与麦克风mc1(换句话说，除该说话者以外的说话者)相对应的滤波器系数，并且将这些滤波器系数设置到自适应滤波器20。因此，声音处理器12(的加法器26)根据等式(11)和(12)来对麦克风mc1和mc2所收集的任何声音信号进行串音抑制处理。

y1＝m1-w21B*m2 (11)

y2＝m2-w12B*m1 (12)

在等式(11)和(12)中，系数w12B是用于在状况B中、使用麦克风mc1来从麦克风mc2的声音信号中抑制基于作为说话者的乘员h1的发声的串音成分的滤波器系数。同样，系数w21B是用于在状况B中、使用麦克风mc2来从麦克风mc1的声音信号中抑制基于作为说话者的乘员h2的发声的串音成分的滤波器系数。

也就是说，加法器26进行从麦克风mc1和mc2分别收集的声音信号中减去如下的串音成分的处理，该串音成分是使用与说话者状况检测器13所检测到的说话者状况(即，“状况B”)相对应地分别选择的滤波器系数而进行抑制的。具体地，由于乘员h2是说话者，因此在麦克风m1中收集基于乘员h2的发声的声音信号作为串音成分。此外，由于与不存在说话者的情况相比、学习并更新系数w12B使得可以抑制串音成分，因此基于等式(12)，输出y2作为串音成分被充分抑制的声音信号。

随后，例如，在检测到说话者包括包含乘员h1和h2的两个人这一事实(在参考图12的说明中称为“状况C”)作为说话者状况检测器13所获取到的说话者状况的检测结果的情况(双人说话区间)中，滤波器系数更新处理器25单独更新自适应滤波器20的分别与麦克风mc1和mc2相关联的滤波器系数。在这种情况下，滤波器系数更新处理器25分别选择保存在存储器M1中且与针对先前采样(在时间轴上)或先前帧(在频率轴上)的声音信号进行了更新的麦克风mc1和mc2相对应的滤波器系数，并且将这些滤波器系数设置到自适应滤波器20。因此，声音处理器12的(加法器26)根据等式(13)和(14)来对麦克风mc1和mc2所收集的任何声音信号进行串音抑制处理。

y1＝m1-w21C*m2 (13)

y2＝m2-w12C*m1 (14)

在等式(13)和(14)中，系数w12C是用于在状况C中、使用麦克风mc1来从麦克风mc2的声音信号中抑制基于作为说话者的乘员h1的发声的串音成分的滤波器系数。同样，系数w21C是用于在状况C中、使用麦克风mc2来从麦克风mc1的声音信号中抑制基于作为说话者的乘员h2的发声的串音成分的滤波器系数。

也就是说，加法器26进行从麦克风mc1和mc2分别收集的声音信号中减去如下的串音成分的处理，该串音成分是使用与说话者状况检测器13所检测到的说话者状况(即，“状况C”)相对应地分别选择的滤波器系数而进行抑制的。具体地，由于乘员h1和h2这两者都是说话者，因此在麦克风m1和m2中收集基于乘员h1和h2的发声的声音信号作为串音成分。此外，由于与不存在说话者的情况相比、学习并更新系数w21C和w12C使得可以抑制串音成分，因此基于等式(13)和(14)，输出y1和y2作为串音成分被充分抑制的声音信号。

如上所述，在第二实施例中，在两个说话者正在同时说话的情况下，其他说话者的声音被输入至一侧麦克风并且容易发生串音。此外，由于从扬声器输出的声音而发生声音回声。在学习与对应于各说话者的专用麦克风相对应的自适应滤波器20的滤波器系数的情况下，声音处理设备10不仅能够抑制串音成分，而且还能够减少声音回声。因此，声音处理设备10用作声音回声抑制设备(啸声消除器)。

如上所述，根据第二实施例的声音处理设备10还包括说话者状况检测器13，该说话者状况检测器13用于判断表示两个乘员的发声的有无的说话者状况。在判断为存在至少一个说话者的情况下，声音处理器12在使用由除说话者以外的乘员专用的麦克风收集的说话者声音信号作为串音成分时，更新与除说话者以外的乘员专用的麦克风相对应的滤波器系数，并且将更新结果存储为说话者专用的滤波器系数。

由此，声音处理设备10学习与各说话者专用的麦克风相对应的滤波器系数。因此，在其他乘员也正在说话的情况下，可以抑制由说话者专用的麦克风收集的声音信号中所包括的、由于其他乘员而产生的串音成分。另外，从扬声器输出的声音不是由说话者专用的麦克风收集的，因而声音处理设备10可以减少声音回声。

在上文，尽管参考附图说明了各种实施例，但无需说明，本发明不限于这些示例。显然，本领域技术人员可以容易地预期各种改变例、修改例、替换例、以权利要求书所撰写的类别的添加例、删除例和等同例，并且应理解，这些示例自然属于本发明的技术范围。另外，在未背离本发明的主旨的情况下，可以从范围上随机组合上述各种实施例中的各个组件。

例如，单人说话区间可以不限于仅一个乘员正在说话的区间，并且即使在多个人正在说话的说话者状况中，也可以使用被视为仅一个乘员实质上正在说话的区间作为单人说话区间。其原因在于，例如，即使在说话声音的频率低的男人和说话声音的频率高的女人正在一起说话的情况下，说话者状况检测器13也可以对各个声音信号进行分割成不会产生频带的重复(干扰)的程度，因而可以视为单人说话区间。

例如，在实施例中，按500Hz的带宽在可听频带(30Hz～23kHz)的音域中进行频带分割，以提供0～500Hz、500Hz～1kHz、……。然而，可以利用诸如100Hz的带宽、200Hz的带宽或1kHz的带宽等的随机带宽进行频带分割。另外，在实施例中，带宽是固定设置的。然而，可以根据说话者存在的状况来动态地和可变地设置带宽。例如，在仅老年人乘车或聚集的情况下，通常认为老年人仅能听到低音域的声音，并且在许多情况下在等于或低于10kHz的音域中进行会话。在这种情况下，可以在等于或低于10kHz的音域上利用例如50Hz的带宽以狭窄的方式进行频带分割，并且可以在高于10kHz的音域上利用例如1kHz的带宽以宽的方式进行频带分割。另外，由于儿童和女人听到高音域的声音，因此接近20kHz的声音成为串音成分。在这种情况下，可以在高于10kHz的音域上利用例如100Hz的带宽以狭窄的方式进行频带分割。

另外，在上述实施例中，假定在车辆内部进行会话的情况。然而，本发明可以同样地应用于多个人在建筑物内的会议室中进行会话的情况。另外，可以将本发明应用于在电话会议系统中进行会话的情况或者播放TV的字幕(屏幕文字)的情况。

本发明可作为如下的声音处理设备和声音处理方法使用，该声音处理设备和声音处理方法在布置了不同的麦克风以与各个人相对应的环境下，减轻基于周围的其他人所发出的声音的串音成分的影响，并且抑制由说话者发出且由相关麦克风收集的声音的音质的劣化。

Claims

1.一种声音处理设备，包括：

声音输出控制器，其至少包括：

滤波器，其被配置为抑制包括在各个说话者声音信号中的由于其他说话者的发声而产生的各个串音成分，该各个说话者声音信号是在一个封闭空间中与n个人相对应地布置的n个麦克风所收集的，其中n是等于或大于2的整数，以及

参数更新器，其被配置为更新用于抑制所述串音成分的所述滤波器的参数，并且将更新结果存储在存储器中；以及

说话者状况检测器，其被配置为通过使用所述n个麦克风所收集的各个说话者声音信号，来检测所述封闭空间中与所述n个麦克风相对应的各个人的发声状况，

其中，在所述说话者状况检测器判断为满足包括至少一个说话者说话的时间的预定条件的情况下，所述参数更新器更新用于抑制所述串音成分的所述滤波器的参数，并且将更新结果存储在所述存储器中，以及

其中，所述声音输出控制器接收所述n个麦克风所收集的各个说话者声音信号，并且基于所述说话者状况检测器所检测到的所述封闭空间中的发声状况，来输出所接收到的说话者声音信号、以及通过针对所接收到的各个说话者声音信号利用所述滤波器抑制该说话者声音信号的所述串音成分而获取到的声音信号中的任一者。

2.根据权利要求1所述的声音处理设备，其中，在所述说话者状况检测器判断为所有的n个人都正在说话的情况下，所述滤波器针对与所述n个人相对应的所述n个麦克风所收集的各个说话者声音信号，抑制由于其他人的发声而产生的串音成分。

3.根据权利要求1或2所述的声音处理设备，其中，所述说话者状况检测器通过对所述n个麦克风所收集的各个说话者声音信号进行相关性分析，来检测所述封闭空间中的发声状况。

4.根据权利要求3所述的声音处理设备，其中，所述说话者状况检测器使用通过对所述n个麦克风所收集的各个说话者声音信号的声压级的绝对值进行计算和平滑化而获取到的值，来进行所述相关性分析。

5.根据权利要求1至4中任一项所述的声音处理设备，其中，所述说话者状况检测器通过使用所述n个麦克风所收集的声音信号来检测在所述封闭空间中实质上一个说话者正在说话的单人说话区间，

其中，在检测到所述单人说话区间的情况下，所述参数更新器在认为满足所述预定条件时，使用所述说话者声音信号中所包括的除所述说话者以外的人的声音信号作为所述串音成分来更新所述滤波器的参数，以及

其中，所述声音输出控制器使用被所述参数更新器更新了参数的滤波器，来至少从与除被判断为实质上正在说话的一个说话者以外的各个人相对应的麦克风所收集的声音信号中、抑制实质上正在说话的一个说话者的声音，并输出该声音信号。

6.根据权利要求5所述的声音处理设备，其中，在所述说话者状况检测器在所述封闭空间中检测到除所述单人说话区间以外的区间的情况下，所述参数更新器认为不满足所述预定条件，因此不更新所述滤波器的参数，以及

其中，所述声音输出控制器输出通过利用所述滤波器基于所述存储器中所存储的参数的最新更新结果、至少从如下的声音信号中抑制所述串音成分而获取到的声音信号，该如下的声音信号是与所述n个人相对应的麦克风所收集的各个说话者声音信号中的、与被判断为实质上正在说话的各个说话者相对应的麦克风所收集的声音信号。

7.根据权利要求5所述的声音处理设备，其中，在所述说话者状况检测器在所述封闭空间中检测到无人说话的无发声区间的情况下，所述滤波器不抑制所述串音成分，并且所述声音输出控制器原样输出所述n个麦克风所收集的各个声音信号。

8.根据权利要求5所述的声音处理设备，其中，在所述说话者状况检测器在所述封闭空间中检测到所述单人说话区间的情况下，所述滤波器不抑制与被判断为在所述单人说话区间中正在说话的说话者相对应的说话者声音信号中所包括的串音成分，以及

其中，所述声音输出控制器原样输出与被判断为在所述单人说话区间中正在说话的说话者相对应的麦克风所收集的声音信号。

9.根据权利要求1至4中任一项所述的声音处理设备，其中，在所述说话者状况检测器判断为在所述封闭空间中存在所述至少一个说话者的情况下，所述参数更新器使用与除该说话者以外的人相对应的麦克风所收集的说话者声音信号作为所述串音成分来更新所述滤波器的参数，并且将更新结果存储为与该说话者相对应的参数。

10.根据权利要求1至4中任一项所述的声音处理设备，其中，在所述说话者状况检测器在所述封闭空间中检测到无人说话的无发声区间的情况下，所述滤波器抑制所述串音成分，以及

其中，所述声音输出控制器输出通过利用所述滤波器基于所述存储器中所存储的参数的最新更新结果、从所述n个麦克风所收集的声音信号中抑制所述串音成分而获取到的声音信号。

11.根据权利要求5所述的声音处理设备，其中，在所述说话者状况检测器在所述封闭空间中检测到所述单人说话区间的情况下，所述滤波器抑制在与所述单人说话区间中的说话者相对应的麦克风所收集的、除该说话者以外的人的声音信号中包括的串音成分，以及

其中，所述声音输出控制器输出通过利用所述滤波器基于所述存储器中所存储的参数的最新更新值、从所述说话者声音信号中抑制所述串音成分而获取到的声音信号。

12.一种声音处理方法，包括：

抑制包括在各个说话者声音信号中的由于其他说话者的发声而产生的各个串音成分，该各个说话者声音信号是在一个封闭空间中与n个人相对应地布置的n个麦克风所收集的，其中n是等于或大于2的整数；

使用所述n个麦克风所收集的各个说话者声音信号，来检测所述封闭空间中与所述n个麦克风相对应的各个人的发声状况；

在判断为满足包括至少一个说话者说话的时间的预定条件的情况下，更新用于抑制所述串音成分的滤波器的参数，并且将更新结果存储在存储器中；以及

基于所检测到的发声状况，来输出所接收到的说话者声音信号、以及通过针对所接收到的各个说话者声音信号利用所述滤波器抑制该说话者声音信号的所述串音成分而获取到的声音信号中的任一者。