CN108074583A

CN108074583A - 声音信号处理系统及装置

Info

Publication number: CN108074583A
Application number: CN201710690196.5A
Authority: CN
Inventors: 孙庆华; 高岛辽; 高岛辽一; 藤冈拓也
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2016-11-14
Filing date: 2017-08-14
Publication date: 2018-05-25
Anticipated expiration: 2037-08-14
Also published as: US20180137876A1; CN108074583B; JP2018082225A; JP6670224B2

Abstract

本发明涉及声音信号处理系统及装置，有效地分离从多个设备各自的扬声器发出的声响。一种声音信号处理系统，具备声音信号处理装置和多个设备，所述多个设备之中的第一设备与麦克风连接，将麦克风输入信号输出至所述声音信号处理装置，所述多个设备之中的第二设备与扬声器连接，将与输出至所述扬声器的信号相同的扬声器输出信号输出至所述声音信号处理装置，所述声音信号处理装置使所述麦克风输入信号所包含的波形与所述扬声器输出信号所包含的波形同步，从所述麦克风输入信号所包含的波形中，去除所述扬声器输出信号所包含的波形。

Description

声音信号处理系统及装置

技术领域

本发明涉及声音信号处理系统及装置。

背景技术

作为本技术领域的背景技术，存在在声音识别、远程会议等场景中从多个声源产生的声响被输入至麦克风时，从该麦克风输入音中提取目的声音的技术。

例如，在使用了多个设备(终端)的声音信号处理系统(声音翻译系统)中，设备使用者的发声为目的声音，所以需要去除这以外的声音(环境声、其他设备使用者的人声、其他设备的扬声器声)。关于从同一设备的扬声器发出的声响，通过以往的回声消除技术(专利文献1)，也能够去除从同一设备之中(以不经由通信，全部麦克风和扬声器以电信号电平相连为前提)的多个扬声器发出的声响。

现有技术文献

专利文献

专利文献1：(日本)特开平07-007557号公报

发明内容

发明要解决的课题

但是，在专利文献1中记载的回声消除技术中，难以有效地分离从其他设备的扬声器发出的声响。

因此，本发明的目的在于，有效地分离从多个设备各自的扬声器发出的声响。

用于解决课题的手段

本发明所涉及的代表性的声音信号处理系统是具备声音信号处理装置和多个设备的声音信号处理系统，所述多个设备之中的第一设备与麦克风连接，将麦克风输入信号输出至所述声音信号处理装置，所述多个设备之中的第二设备与扬声器连接，将与输出至所述扬声器的信号相同的扬声器输出信号输出至所述声音信号处理装置，所述声音信号处理装置使所述麦克风输入信号所包含的波形与所述扬声器输出信号所包含的波形同步，从所述麦克风输入信号所包含的波形中，去除所述扬声器输出信号所包含的波形。

发明效果

根据本发明，能够有效地分离从多个设备各自的扬声器发出的声响。

附图说明

图1是表示实施例1的声音信号处理装置的处理的流程的例子的图。

图2是表示声音翻译系统的例子的图。

图3是表示具备声音信号处理装置的声音翻译系统的例子的图。

图4是表示包含设备的声音信号处理装置的例子的图。

图5是表示对设备和声音信号处理装置进行连接的例子的图。

图6是表示对包含设备的声音信号处理装置和设备进行连接的例子的图。

图7是表示麦克风输入信号和扬声器输出信号的例子的图。

图8是表示扬声器信号检测部中的检测的例子的图。

图9是表示扬声器信号检测部中的以短时间检测的例子的图。

图10是表示扬声器信号检测部中的以提示音检测的例子的图。

图11是表示设备包含声音生成装置的例子的图。

图12是表示声音生成装置与设备连接的例子的图。

图13是表示服务器包含声音信号处理装置和声音生成装置的例子的图。

图14是表示由各信号间时间同步部进行的再同步的例子的图。

图15是表示实施例2的声音信号处理装置的处理的流程的例子的图。

图16是表示与人共生机器人的移动的例子的图。

图17是表示离声源的距离和声音强度的关系的例子的图。

标号说明：

100、900 声音信号处理装置

102 采样频率变换部

103 扬声器信号检测部

104 各信号间时间同步部

105 回声消除执行部

202 麦克风输入信号

301 设备

302 扬声器输出信号。

具体实施方式

以下，使用附图，说明本发明优选的实施例。在以下的各实施例中，说明处理器执行软件程序的例子，但不限定于此，也可以是其执行的一部分由硬件来实现。此外，通过系统、装置、部这样的表现来称呼处理的单位，但不限定于这些表现，进而也可以是多个装置、多个部成为一个装置、一个部，也可以是一个装置、一个部成为多个装置、多个部。

【实施例1】

图2是表示声音翻译系统200的例子的图。具备麦克风或者与麦克风连接的设备201-1被输入声音，向噪声去除装置203-1输出将声音变换为电信号而得到的麦克风输入信号202-1。噪声去除装置203-1对麦克风输入信号202-1进行噪声去除，将信号204-1输出至声音翻译装置205-1。

声音翻译装置205-1对包含声音成分的信号204-1进行声音翻译。并且，声音翻译的结果从声音翻译装置205-1作为省略了图示的扬声器输出信号而被输出。在此，噪声去除和声音翻译的处理内容与之后说明的本实施例的结构无关，所以省略其说明，也可以是一般已知进行的处理。

设备201-2、201-N与设备201-1的说明相同，麦克风输入信号202-2、202-N与麦克风输入信号202-1的说明相同，噪声去除装置203-2、203-N与噪声去除装置203-1的说明相同，信号204-2、204-N与信号204-1的说明相同，声音翻译装置205-2、205-N与声音翻译装置205-1的说明相同，因此省略说明。另外，N为2以上的正整数。

声音翻译系统200如图2所示，具备N组由设备201(在没有特别分别地指出设备201-1～201-N的情况下，记载为设备201。以下，同样地记载其他标号)与噪声去除装置203与声音翻译装置205所成的组，各组独立。

在各自的组中，被输入各自的第一语言声音，输出翻译后的各自的第二语言声音。因此，设备201具备扬声器或者与扬声器连接，由声音翻译装置205翻译后的第二语言声音被输出，在会议等中多个设备201邻近设置的情况下，存在第二语言声音在空中传播而与其他第一语言声音一起从麦克风被输入的可能性。

即，存在从声音翻译装置205-1输出的第二语言声音从设备201-1的扬声器输出，在空中传播而被输入至在附近设置的设备201-2的麦克风的可能性。麦克风输入信号202-2所包含的第二语言声音也可能是本来的信号，所以难以通过噪声去除装置203-2进行去除，对声音翻译装置205-2的翻译精度有可能产生影响。

另外，不仅是从设备201-1的扬声器输出的第二语言声音，从设备201-N的扬声器输出的第二语言声音都有可能被输入至设备201-2的麦克风。

图3是表示具备声音信号处理装置100的声音翻译系统300的例子的图。对图2中已经说明的部件赋予与图2相同的标号而省略说明。设备301-1是与设备201-1同种的设备，但具备麦克风和扬声器或者与其连接，除了麦克风输入信号202-1之外还对输出至扬声器的扬声器输出信号302-1进行输出。

扬声器输出信号302-1是对由设备301-1的扬声器输出的信号例如进行分支而得到的信号，其输出源既可以在设备301-1之中，也可以在之外。关于扬声器输出信号302-1的输出源，使用图11～13在后面进一步说明。

声音信号处理装置100-1输入麦克风输入信号202-1和扬声器输出信号302-1，执行回声消除的处理，将处理结果的信号输出至噪声去除装置203-1。关于回声消除的处理，在后面进一步说明。噪声去除装置203-1、信号204-1、声音翻译装置205-1分别如已经说明的那样。

设备301-2、301-N与设备301-1的说明相同，扬声器输出信号302-2、302-N与扬声器输出信号302-1的说明相同，声音信号处理装置100-2、100-N与声音信号处理装置100-1的说明相同。此外，如图3所示，麦克风输入信号202-1、202-2、202-N的各个被输入至声音信号处理装置100-1、100-2、100-N的各个。

相对于此，扬声器输出信号302-1、302-2、302-N被输入至声音信号处理装置100-1。即，声音信号处理装置100-1输入从多个设备301输出的扬声器输出信号302。并且，声音信号处理装置100-2、100-N的各个也与声音信号处理装置100-1相同，输入从多个设备301输出的扬声器输出信号302。

由此，即使声音信号处理装置100-1除了从设备301-1的扬声器向空中输出的声波之外，还由设备301-1的麦克风拾取了从设备301-2、301-N的扬声器向空中输出的声波，对麦克风输入信号202-1造成影响，也能够使用扬声器输出信号302-1、302-2、302-N去除该影响。声音信号处理装置100-2、100-N也相同地进行动作。

使用图4～6，说明声音信号处理装置100和设备301的硬件的例子。图4是表示包含设备301的声音信号处理装置100a的例子的图。在图3的例子中，将设备301和声音信号处理装置100作为不同对象示出，但不限定于不同对象，也可以是声音信号处理装置100包含设备301而成为作为声音信号处理装置100a。

CPU401a也可以是一般的中央运算部或者处理器。存储器402a也可以是CPU401a的主存储器，是储存程序和数据的半导体存储器。存储装置403a也可以是非易失性的存储装置，例如HDD(硬盘驱动器)、SSD(固态硬盘驱动器)、闪存等，既可以与存储器402a重复地储存程序和数据，也可以在与存储器402a之间转发它们。

声音输入I/F404a是连接省略了图示的麦克风(microphone)等声音输入装置的接口。声音输出I/F405a是连接省略了图示的扬声器等声音输出装置的接口。数据发送装置406a是用于向其他声音信号处理装置100a发送数据的装置，数据接收装置407a是用于从其他声音信号处理装置100a接收数据的装置。

此外，数据发送装置406a也可以向噪声去除装置203发送数据，数据接收装置407a也可以从声音翻译装置205等之后说明的声音生成装置接收数据。以上说明的各部通过总线408a而相互连接。

CPU401a执行从存储装置403a被加载到存储器402a的程序，将由声音输入I/F404a取得的麦克风输入信号202的数据储存至存储器402a或者存储装置403a，将由数据接收装置407a接收到的数据储存至存储器402a或者存储装置403a。CPU401a使用存储器402a或者存储装置403a储存的数据进行回声消除等处理，由数据发送装置406a发送处理结果的数据。

此外，作为设备301，CPU401a从声音输出I/F405a输出由数据接收装置407a接收到的数据或者在存储装置403a中储存的扬声器输出信号302的数据。

图5是表示对设备301和声音信号处理装置100b进行连接的例子的图。声音信号处理装置100b所具备的CPU401b、存储器402b、存储装置403b的各个进行在CPU401a、存储器402a、存储装置403a中说明的动作。通信I/F511b是经由网络510b与设备301b-1、301b-2进行通信的接口。总线508b将CPU401b、存储器402b、存储装置403b、通信I/F511b相互连接。

设备301b-1所具备的CPU501b-1、存储器502b-1、声音输入I/F504b-1、声音输出I/F505b-1的各个进行在CPU401a、存储器402a、声音输入I/F404a、声音输出I/F405a中说明的动作。

通信I/F512b-1是经由网络510b与声音信号处理装置100b进行通信的接口，也可以与省略了图示的其他声音信号处理装置100b进行通信。设备301b-1所具备的各部通过总线513b-1相互连接。

设备301b-2所具备的CPU501b-2、存储器502b-2、声音输入I/F504b-2、声音输出I/F505b-2、通信I/F512b-2、总线513b-2的各个进行在CPU501b-1、存储器502b-1、声音输入I/F504b-1、声音输出I/F505b-1、通信I/F512b-1、总线513b-1中说明的动作。设备301b不限定于2台，也可以是3台以上。

网络510b既可以是有线网络，也可以是无线网络。此外，网络510b也可以是数字数据的网络，也可以是供声音电信号等通信的模拟数据的网络。此外，在网络510b中，也可以连接省略了图示的噪声去除装置203、声音翻译装置205、或者输出某声音信号或者声音数据的装置。

在设备301b中，CPU501b执行在存储器502b中储存的程序。由此CPU501b将由声音输入I/F504b取得的麦克风输入信号202的数据从通信I/F512b经由网络510b转发至通信I/F511b。

此外，CPU501b将经由网络510b由通信I/F512b接收到的扬声器输出信号302的数据通过声音输出I/F505b进行输出，通过通信I/F512b经由网络510b发送至通信I/F511b。这些设备301b的处理在设备301b-1与设备301b-2中独立执行。

相对于此，在声音信号处理装置100b中，CPU401b执行从存储装置403b加载到存储器402b的程序。由此CPU401b将由通信I/F511b接收到的来自设备301b-1、301b-2的麦克风输入信号202的数据储存至存储器402b或者存储装置403b，将由通信I/F511b接收到的来自设备301b-1、301b-2的扬声器输出信号302的数据储存至存储器402b或者存储装置403b。

进而，CPU401b使用存储器402b或者存储装置403b储存的数据进行回声消除等处理，通过通信I/F511b发送处理结果的数据。

图6是表示对包含设备301的声音信号处理装置100c和设备301c进行连接的例子的图。声音信号处理装置100c所具备的CPU401c、存储器402c、存储装置403c、声音输入I/F404c、声音输出I/F405c的各个进行在CPU401a、存储器402a、存储装置403a、声音输入I/F404a、声音输出I/F405a中说明的动作。此外，通信I/F511c进行通信I/F511b中说明的动作。声音信号处理装置100c所具备的各部通过总线608c相互连接。

设备301c-1所具备的CPU501c-1、存储器502c-1、声音输入I/F504c-1、声音输出I/F505c-1、通信I/F512c-1、总线513c-1的各个进行CPU501b-1、存储器502b-1、声音输入I/F504b-1、声音输出I/F505b-1、通信I/F512b-1、总线513b-1中说明的动作。设备301c-1不限定于1台，也可以是2台以上。

网络510c及与网络510c连接的装置与网络510b的说明相同，因此省略说明。设备301c-1的CPU501c-1的动作与设备301b的动作相同，特别是，将麦克风输入信号202的数据和扬声器输出信号302的数据通过通信I/F512c-1经由网络510c发送至通信I/F511c。

相对于此，在声音信号处理装置100c中，CPU401c执行从存储装置403c加载到存储器402c的程序。由此CPU401c将由通信I/F511c接收到的来自设备301c-1的麦克风输入信号202的数据储存至存储器402c或者存储装置403c，将由通信I/F511c接收到的来自设备301c-1的扬声器输出信号302的数据储存至存储器402c或者存储装置403c。

此外，CPU401c将由声音输入I/F404c取得的麦克风输入信号202的数据储存至存储器402c或者存储装置403c，将由通信I/F511c接收到的应由声音信号处理装置100c本身输出的扬声器输出信号302的数据或者在存储装置403a中储存的扬声器输出信号302的数据从声音输出I/F405c输出。

并且，CPU401c使用在存储器402c或者存储装置403c中储存的数据进行回声消除等处理，通过通信I/F511c发送处理结果的数据。

以下，在没有特别分别地指出使用图4～6说明的声音信号处理装置100a～100c的情况下，记载为声音信号处理装置100，在没有特别分别地指出设备301b-1、301c-1的情况下，记载为设备301-1，在没有特别分别地指出设备301b-1、301b-2、301c-1的情况下，记载为设备301。

接着，使用图1、7～11进一步说明声音信号处理装置100的动作。图1是表示声音信号处理装置100的处理的流程的例子的图。设备301、麦克风输入信号202、扬声器输出信号302如已经说明的那样。在图1中为了说明，示出图3所示的声音信号处理装置100-1作为代表性的声音信号处理装置100，但也可以存在图1中省略了图示的声音信号处理装置100-2等，从设备301-2输入麦克风输入信号202-2等。

图7是表示麦克风输入信号202和扬声器输出信号302的例子的图。在图7中为了易于理解，使用模拟信号的表现，但既可以是模拟信号(数字化后再模拟化的模拟信号)，也可以是数字信号。麦克风输入信号202是设备301-1所具备的麦克风的电信号或者对该电信号进行了放大、数字化等变换后的信号，如波形701那样。

此外，扬声器输出信号302是由设备301的扬声器输出的电信号或者对该电信号进行了放大、数字化等变换后的信号，如波形702那样。并且，如已经说明的那样，从设备301的扬声器向空中输出的声波也由设备301-1的麦克风拾取，对波形701造成如波形703那样的影响。

在图7的例子中，为了易于观看而将粗线的波形702和波形703设为相同的形状，但波形703是合成后的波形，因此不一定成为相同的形状。进而，在输出波形702的设备301为设备301-2的情况下，根据与设备301-N等其他设备301相同的原理对波形701产生影响。

图1所示的数据接收部101在设备301为N个的情况下，接收麦克风输入信号202-1的一个波形701、和扬声器输出信号302-1～302-N的N个波形702，分别输出至采样频率变换部102。另外，数据接收部101也可以是由数据接收装置407a、通信I/F511b或通信I/F511c中的任一个和CPU401进行的这些控制处理。

一般来说，由麦克风输入的信号和由扬声器输出的信号有时根据具备它们的装置而采样频率不同。因此，采样频率变换部102将从数据接收部101输入的麦克风输入信号202-1和多个扬声器输出信号302变换为相同的采样频率。

另外，扬声器输出信号302的采样频率也可以为：在成为扬声器输出信号302的基础的信号为来自麦克风的输入信号等模拟信号的情况下，是该模拟信号的采样频率，在成为扬声器输出信号302的基础的信号原本就是数字信号的情况下，是作为由该数字信号表示的连续的多个声响的间隔的倒数来定义的频率。

例如，在麦克风输入信号202-1为16KHz，扬声器输出信号302-2为22KHz，扬声器输出信号302-N为44KHz的情况下，采样频率变换部102将扬声器输出信号302-2、302-N变换为16KHz。并且，采样频率变换部102将变换后的信号分别输出至扬声器信号检测部103。

扬声器信号检测部103在变换后的信号之中，从麦克风输入信号202-1之中检测扬声器输出信号302的影响。即，从图7所示的波形701之中检测波形703，波形703存在于波形701的时间轴的一部分，所以检测波形701内的波形703的时刻的位置。

图8是表示扬声器信号检测部103中的检测的例子的图。波形701、703如使用图7说明的那样。扬声器信号检测部103使麦克风输入信号202-1(波形701)延迟预先设定的时间，计算延迟了比波形701延迟的该时间短的偏移时间712-1的扬声器输出信号302的波形702-1与波形701的信号间相关，记录所计算出的相关值。

扬声器信号检测部103以预先设定的时间单位从偏移时间712-1进一步延迟，例如设为偏移时间712-2、偏移时间712-3，计算信号间相关，反复记录所计算出的相关值。在此，延迟为偏移时间712-1、712-2、712-3，所以波形702-1、波形702-2、波形702-3为相同的形状的波形，是图7所示的波形702的形状。

因此，与合成了波形702后的波形703在时刻上接近的偏移时间712-2的波形702-2与波形701的相关计算的结果即相关值，成为比波形702-1或者波形702-3与波形701的相关计算的结果高的值。即，偏移时间和相关值的关系如曲线图713那样。

扬声器信号检测部103将相关值最高的偏移时间712-2确定为扬声器输出信号302的影响显现的时刻(或者从预先设定的时刻起的时间)。在此，说明了一个扬声器输出信号302，但关于扬声器输出信号302-1、302-2、302-N，分别通过以上说明的处理，确定各自的时刻，设为扬声器信号检测部103的输出。

在相关计算中使用的波形702的长度、或者若从相反的观点来看成为波形702的相关计算的对象的时间越长，则相关计算越花时间，扬声器信号检测部103中的处理延迟变大，从被输入至设备301-1的麦克风至由声音翻译装置205翻译为止的响应即翻译的实时性变差。

为了使响应更好，要缩短相关计算，缩短成为相关计算的对象的时间即可，但若过短，则存在即使与本来不同的偏移时间，相关值也变高的可能性。图9是表示扬声器信号检测部103中的以短时间检测的例子的图。波形714-1、714-2、714-3的各个为相同的形状，与图8所示的波形702-1、702-2、702-3相比波形的时间更短。

并且，如使用图8说明的那样，扬声器信号检测部103延迟为偏移时间712-1、712-2、712-3，用波形714-1、714-2、714-3的各个与波形701进行相关计算。但是，波形714比波形703短，所以例如在偏移时间712-2中的与波形703的一部分之间的相关计算中相关值不会充分高，此外，即使是波形703以外的部分，由于波形714短而也产生相关值变高的部分，如曲线图715那样。

因此，扬声器信号检测部103难以确定扬声器输出信号302的影响显现的时刻。另外，在图9中，较短地表现波形本身，但即使波形本身与波形702-1、702-2、702-3相同，而缩短成为相关计算的对象的时间，计算结果的相关值也相同。

因此，在本实施例中，为了高效地确定扬声器输出信号302的影响显现的时刻，向波形702或者波形714的开头插入易于检测的短波形，兼顾响应和检测精度。波形702或者波形714的开头也可以是扬声器输出信号302的扬声器的声响的开头，该扬声器的声响的开头也可以是无音区间即停顿之后的开头、或者扬声器的合成声音中的合成的开头。

此外，作为易于检测的短波形，既可以是脉冲波形、白噪声的波形等，也可以是由与声音等波形相关低的波形构成的机械音等，若从翻译系统的性质来看，优选汽车导航的声音引导中经常使用的“嘭(pon)”这样的提示音。图10是表示扬声器信号检测部103中的以提示音检测的例子的图。

提示音的波形724与波形725以外的波形701的部分在波形上大为不同，所以设为图10那样的附图上的表现。在此，在扬声器输出信号302中，除了波形724之外，也可以包含波形702或者波形714，但由于对计算后的相关值的影响少，所以省略波形702或者波形714的图示。波形724本身短，成为相关计算的对象的时间也短。

并且，如使用图8、9说明的那样，扬声器信号检测部103延迟为偏移时间722-1、722-2、722-3，在波形724-1、724-2、724-3的各个与波形701中进行相关计算，得到曲线图723的相关值。由此，能够兼顾响应和检测精度。

关于响应，也可以使至开始相关计算为止的时间缩短。因此，优选在波形703等的与扬声器输出信号302对应的信号成分(波形成分)到达扬声器信号检测部103的时刻，成为扬声器输出信号302的波形702能够进行相关计算的状态。

例如，说明了若麦克风输入信号202-1的波形701和扬声器输出信号302的波形702的时间关系如图7那样，则不会成为图8的波形703和波形702-1的时间关系，所以使波形701延迟预先设定的时间，但由于该波形701的延迟，至开始相关计算为止的时间也延迟。

若从波形702的输入时刻起不是图7，而是图8的波形703和波形702-1的时间关系、即扬声器输出信号302与麦克风输入信号202-1相比更早到达扬声器信号检测部103，则不需要使波形701延迟，能够使至开始相关计算为止的时间缩短。图10的波形725和波形724-1的时间关系也与波形703和波形702-1的时间关系相同。

图11是表示设备301包含声音生成装置802的例子的图。设备301-1如已经说明的那样，与麦克风801-1连接，将麦克风输入信号202-1输出至声音信号处理装置100。设备301-2包含声音生成装置802-2，将声音生成装置802-2生成的声音信号输出至扬声器803-2，且将扬声器输出信号302-2输出至声音信号处理装置100。

从扬声器803-2输出的声波在空中传播而从麦克风801-1被输入，对麦克风输入信号202-1的波形701作为波形703而产生影响。这样，存在从声音生成装置802-2到声音信号处理装置100的两个路径，但不一定各路径的传递时间的关系稳定。特别是，在使用图5、6说明的结构中也受到网络510的传递时间的影响。

图12是表示声音生成装置802与设备301连接的例子的图。设备301-1、麦克风801-1、麦克风输入信号202-1、声音信号处理装置100如使用图11说明的那样，因此赋予相同的标号，省略说明。声音生成装置802-3相当于声音生成装置802-2，将声音的信号804-3输出至设备301-3。

关于设备301-3，若输入信号804-3，则将信号804-3原样、或者变换为适合扬声器803-3的信号形式，输出至扬声器803-3。此外，设备301-3将信号804-3原样、或者变换为扬声器输出信号302-3的信号形式，作为扬声器输出信号302-3而输出至声音信号处理装置100。这样，在图12所示的例子中，也成为与使用图11说明的路径相同的路径。

图13是表示服务器805包含声音信号处理装置100和声音生成装置804的例子的图。设备301-1、麦克风801-1、麦克风输入信号202-1、声音信号处理装置100如使用图11说明的那样，因此赋予相同的标号，省略说明。此外，设备301-4、扬声器803-4、信号804-4的各个相当于设备301-3、扬声器803-3、信号804-3，但设备301-4不向声音信号处理装置100进行输出。

声音生成装置802-4与声音信号处理装置100相同地被包含于服务器805，将相当于扬声器输出信号302的信号输出至声音信号处理装置100。由此，保证扬声器输出信号302不比麦克风输入信号202延迟，能够使响应好。在图13中，示出了声音信号处理装置100和声音生成装置802-4被包含于一个服务器805的例子，但若声音信号处理装置100和声音生成装置802之间的数据转发速度充分高，则也可以是分别独立的装置。

另外，在图11、12的结构中，即使扬声器输出信号302比麦克风输入信号202延迟，如使用图8已经说明的那样，扬声器信号检测部103能够确定麦克风输入信号202与扬声器输出信号302的时间关系。

返回图1，各信号间时间同步部104输入由扬声器信号检测部103确定的麦克风输入信号202与扬声器输出信号302的时间关系的信息、以及这些信号，修正麦克风输入信号202的波形与扬声器输出信号302的波形之间的每个波形的对应关系，来使其同步。

通过采样频率变换部102，麦克风输入信号202和扬声器输出信号302成为相同的采样频率，因此基于在扬声器信号检测部103中使用信号间相关来确定的信息，对麦克风输入信号202和扬声器输出信号302进行一次同步处理后，就应该不会失去同步。

但是，即使成为相同的采样频率，由于向扬声器输出时的DA变换(数字-模拟变换)的变换频率(反复进行从一个数字信号向一个模拟信号的变换的周期)、和由麦克风输入时的AD变换(模拟-数字变换)的采样频率(反复进行从一个模拟信号向一个数字信号的变换的周期)的误差，麦克风输入信号202和扬声器输出信号302的时间的对应关系逐渐偏差。

该偏差在扬声器输出信号302的扬声器的声响短的情况下影响小，但在扬声器的声响长的情况下影响变大。另外，扬声器的声响也可以是在扬声器的合成声音中汇总合成的单位等。因此，在与预先设定的时间相比扬声器的声响更短的情况下，各信号间时间同步部104也可以将基于来自扬声器信号检测部103的信息而同步的信号原样输出至回声消除执行部105。

此外，例如，在扬声器输出信号302的内容为公众广播的情况下，由于公众广播的扬声器的声响长，所以各信号间时间同步部104将基于来自扬声器信号检测部103的信息而同步的信号进一步定期地进行再同步，并输出至回声消除执行部105。

各信号间时间同步部104也可以以预先设定的时间间隔进行再同步，来作为定期的再同步。此外，也可以在基于来自扬声器信号检测部103的信息而同步后，以预先设定的时间间隔计算信号间相关，始终监视所计算出的相关值，在与预先设定的阈值相比相关值变得更低的情况下进行再同步。

但是，若进行同步处理，则使波形伸缩，在同步处理前后作为声响而产生不连续，所以存在对同步处理前后的声响的噪声去除、声音识别产生影响的可能性。因此，也可以是各信号间时间同步部104对扬声器的声响的功率进行计测，在检测到超过预先设定的阈值的功率的上升量的定时进行再同步，由此能够抑制声响的不连续，能够防止声音识别精度等降低。

图14是表示各信号间时间同步部104的再同步的例子的图。扬声器输出信号302为声音信号等，如波形702那样，由于单词、句子的间断、换气等，存在振幅无变化的时间。在该振幅无变化的时间之后，功率上升，所以对其进行检测，在再同步811-1、811-2的定时，各信号间时间同步部104执行再同步的处理。

进而，为了再同步，也可以将使用图10说明的提示音的信号添加至扬声器输出信号302(和作为扬声器输出信号302的影响添加至麦克风输入信号202)。已知在信号间进行同步的情况下，与整齐的正弦波相比，包含大量噪声成分的波形得到更高的精度。因此，通过对声音生成装置802生成的声音添加噪声成分，从而对扬声器输出信号302添加噪声成分，得到高的时间同步精度。

此外，在扬声器输出信号302的信号的频率特性与设备301-1的周围的噪声的频率特性接近的情况下，周围的噪声混入麦克风输入信号202，存在使扬声器信号检测部103及各信号间时间同步部104的处理精度、和回声消除性能降低的可能性，因此在这样的情况下，优选对扬声器输出信号302的信号施加滤波器，使其与周围的噪声的频率特性不同。

返回图1，回声消除执行部105从各信号间时间同步部104输入被同步后或者被同步和再同步后的麦克风输入信号202的信号和各扬声器输出信号302的信号，执行回声消除，从麦克风输入信号202的信号分离、去除各扬声器输出信号302的信号。例如，在图7～9中从波形701分离波形703，在图10中从波形701分离波形703、725。

关于回声消除的具体的处理，不是本实施例的特征性部分，回声消除这样的名称也是已经公知且广泛进行的处理，因此省略说明。回声消除执行部105将回声消除的结果的信号输出至数据发送部106。

数据发送部106将从回声消除执行部105输入的信号发送至声音信号处理装置100的外部的噪声去除装置203。如已经说明的那样，噪声去除装置203去除一般的噪声即去除设备301的周围噪声、突发性噪声，输出至声音翻译装置205，声音翻译装置205对信号所包含的声音进行翻译。另外，也可以省略噪声去除装置203。

由声音翻译装置205翻译的声音的信号既可以作为扬声器输出信号而输出至设备301-1～301-N的一部分，也可以替代扬声器输出信号302-1～302-N的一部分而输出至数据接收部101。

如以上说明的那样，能够可靠地取得由其他设备的扬声器输出的声响的信号作为扬声器输出信号，并应用于回声消除，所以能够有效地去除无用的声响。在此，由其他设备的扬声器输出的声响在空中传播而到达麦克风，成为麦克风输入信号，所以还存在在麦克风输入信号和扬声器输出信号之间产生时间差的可能性，但由于使麦克风输入信号和扬声器输出信号同步，能够提升回声消除中的去除率。

此外，通过能够预先取得扬声器输出信号，能够缩短用于麦克风输入信号和扬声器输出信号的同步的处理时间。进而，通过对扬声器输出信号添加提示音，能够提高麦克风输入信号和扬声器输出信号的同步的精度而缩短处理时间。并且，能够去除成为翻译的对象的声音以外的声响，所以能够提高声音翻译的精度。

【实施例2】

在实施例1中，说明了用于会议等中的声音翻译的前处理的例子，但在实施例2中，说明用于与人共生机器人的声音识别的前处理的例子。本实施例中的与人共生机器人移动到人的附近，由与人共生机器人的麦克风对人发出的声音进行拾取，并识别声音。

在这样的与人共生机器人中，要求实际环境下的高精度的声音识别，所以从特定声源去除声响是有效的，从该特定声源发出作为对声音识别精度产生影响的原因之一的声响，并且伴随着与人共生机器人的移动而变化。作为实际环境中的特定声源，例如，存在其他与人共生机器人的发声、公众广播的声音、与人共生机器人本身的内部噪声等。

图15是表示声音信号处理装置900的处理的流程的例子的图。与图1相同的部分赋予相同的标号而省略说明。声音信号处理装置900在包含扬声器信号强度预测部901上，与实施例1中说明的声音信号处理装置100不同，但这意味着处理不同，因此例如也可以与图4～6、11～13等的声音信号处理装置100在硬件上相同。

此外，代替声音翻译装置205而连接声音识别装置910，声音识别装置910识别声音既可以对与人共生机器人的物理的动作、发声进行控制，也可以对识别后的声音进行翻译。也可以是设备301-1、声音信号处理装置900、噪声去除装置203及声音识别装置910中的任一个被包含于与人共生机器人。

在特定声源之中与人共生机器人本身的内部噪声、特别是电机音对麦克风输入信号202产生很大影响。当前，也存在动作音小的高性能电机，所以通过使用这样的高性能电机，还能够减轻对麦克风输入信号202的影响，但这样的高性能电机的价格高，与人共生机器人的成本变高。

相对于此，若使用低价格的电机，能够抑制与人共生机器人的成本，但低价格的电机动作音大，对麦克风输入信号202的影响大。进而，除了电机本身的动作音的大小之外，成为电机的动作音的基础的振动传递到与人共生机器人的箱体，输入至多个麦克风，所以与空气传播的声响相比更难以去除。

因此，在电机的附近设置麦克风(声音麦克风或者振动麦克风)，将由麦克风取得的信号设为多个扬声器输出信号302之中的一个。由电机附近的麦克风取得的信号不是从扬声器输出的声响的信号，但包含与麦克风输入信号202所包含的波形相关高的波形，所以能够基于回声消除进行分离。

因此，例如也可以是设备301-N的省略了图示的麦克风被设置在电机的附近，设备301-N将由麦克风取得的信号输出至扬声器输出信号302-N。

图16是表示与人共生机器人的移动的例子的图。机器人A 902和机器人B 903分别是与人共生机器人。机器人A 902从位置d向位置D移动。在此，将存在于位置d的时刻设为机器人A 902a，将存在于位置D的时刻设为机器人A 902b。机器人A 902a和机器人A 902b存在的时刻不同，其主体是相同的机器人A 902。

机器人A 902a与机器人B 903相距距离e，若机器人A 902从位置d向位置D移动，则机器人A 902b与机器人B 903变得相距距离E，距离从距离e变化至距离E。此外，机器人A902a与公众广播用扬声器904相距距离f，但若机器人A 902从位置d向位置D移动，则机器人A 902b与公众广播用扬声器904相距距离F，距离从距离f变化至距离F。

这样，在与人共生机器人(机器人A 902)的情况下自由地移动，因此与其他与人共生机器人(机器人B 903)和固定设置的设备301(公众广播用扬声器904)之间的距离变动，麦克风输入信号202所包含的扬声器输出信号302的波形的振幅改变。

在麦克风输入信号202所包含的扬声器输出信号302的波形的振幅小的情况下，还存在信号的同步和回声消除的性能变差的可能性。因此，扬声器信号强度预测部901根据多个设备301各自的位置计算设备301间的距离，不进行与判定为麦克风输入信号202所包含的扬声器输出信号302的波形的振幅小的扬声器输出信号302的信号相关的回声消除。

扬声器信号强度预测部901或者设备301使用电波或者声波等，对扬声器信号强度预测部901的位置即与人共生机器人的位置进行测量。使用电波或者声波等测量位置已经公知地进行，因此省略处理的内容的说明。此外，关于公众广播用扬声器904等固定设置的装置内的扬声器信号强度预测部901，也可以存储预先设定的位置而不测量位置。

所测量出的位置的信息也可以在与人共生机器人、公众广播用扬声器904等之间进行通信而相互存储，根据位置的间隔而计算距离。此外，也可以不测量位置，而由与人共生机器人、公众广播用扬声器904等相互照射电波或者声波等来测量距离。

例如，在实际工作之前的周围无音的状态下，从与人共生机器人、公众广播用扬声器904等扬声器依次发声，没有发声的装置各自的扬声器信号强度预测部901记录麦克风输入信号202的声音强度(波形的振幅)以及距发声的装置的距离。一边变更距离，一边反复进行该记录而记录多个距离各个中的声音强度，或者根据空中的声波的衰减率而计算多个距离各个中的声音强度，制成如图17所示的表示声音衰减曲线905的曲线图的信息。

图17是表示距声源的距离和声音强度的关系的例子的图。在每次与人共生机器人移动(每次位置及距离变化)时，与人共生机器人、公众广播用扬声器904等的扬声器信号强度预测部901计算与其他装置的距离，基于图17所示的各个声音衰减曲线905而求得声音强度。

并且，扬声器信号强度预测部901将预先设定的阈值以上的声音强度存在的扬声器输出信号302的信号输出至回声消除执行部105，不将小于预先设定的阈值的声音强度的扬声器输出信号302的信号输出至回声消除执行部105。由此，能够防止无用的回声消除导致的信号的恶化。

为了求得声音强度，在图16中，若机器人A 902从位置d向位置D移动，则机器人A902和机器人B 903的距离从距离e变为距离E，能够根据图17所示的声音衰减曲线905求得各自的声音强度。在此，即使在距离e中得到阈值以上的声音强度而进行回声消除，在距离E中若成为小于阈值的声音强度则不进行回声消除。

另外，为了更高精度地预测声音强度，除了距离之外，也可以还使用传递路径信息、扬声器的音量等。此外，即使与人共生机器人移动，连接了麦克风的设备301-1的扬声器与被设置在电机附近的设备301-N的麦克风之间距离也不改变，也可以将扬声器输出信号302-1和扬声器输出信号302-N从扬声器信号强度预测部901的处理对象除去。

如以上说明的那样，作为通过电机移动的与人共生机器人，能够有效地去除电机的动作音。此外，即使通过移动而与其他声源的距离变化，也能够有效地去除来自其他声源的声响。特别是，不会由于不需要的去除而对成为识别对象的声音的信号产生影响。并且，能够去除成为识别的对象的声音以外的声响，因此能够提高声音的识别率。

Claims

1.一种声音信号处理系统，具备声音信号处理装置和多个设备，其特征在于，

所述多个设备之中的第一设备与麦克风连接，将麦克风输入信号输出至所述声音信号处理装置，

所述多个设备之中的第二设备与扬声器连接，将与输出至所述扬声器的信号相同的扬声器输出信号输出至所述声音信号处理装置，

所述声音信号处理装置使所述麦克风输入信号所包含的波形与所述扬声器输出信号所包含的波形同步，

所述声音信号处理装置从所述麦克风输入信号所包含的波形中，去除所述扬声器输出信号所包含的波形。

2.如权利要求1所述的声音信号处理系统，其特征在于，

所述多个设备之中的第三设备与第三扬声器连接，将与输出至所述第三扬声器的信号相同的第三扬声器输出信号输出至所述声音信号处理装置，

所述声音信号处理装置进一步使所述麦克风输入信号所包含的波形与所述第三扬声器输出信号所包含的波形同步，

所述声音信号处理装置进一步从所述麦克风输入信号所包含的波形中，去除所述第三扬声器输出信号所包含的波形。

3.如权利要求1所述的声音信号处理系统，其特征在于，

所述声音信号处理装置对所述麦克风输入信号或者所述扬声器输出信号进行变换，以使所述麦克风输入信号的采样频率与所述扬声器输出信号的采样频率成为一个频率，

所述声音信号处理装置基于所述变换后的麦克风输入信号的波形与所述扬声器输出信号的波形的相关计算，确定所述变换后的麦克风输入信号的波形与所述扬声器输出信号的波形的时间关系，或者基于所述麦克风输入信号的波形与所述变换后的扬声器输出信号的波形的相关计算，确定所述麦克风输入信号的波形与所述变换后的扬声器输出信号的波形的时间关系，

所述声音信号处理装置使用所述确定的时间关系来进行同步。

4.如权利要求3所述的声音信号处理系统，其特征在于，

所述声音信号处理装置对所述扬声器输出信号的功率或者所述变换后的扬声器输出信号的功率进行计测，进一步使用所计测出的功率来进行同步。

5.如权利要求4所述的声音信号处理系统，其特征在于，

在所述第二设备输出至所述扬声器的信号和所述扬声器输出信号中，包含由与声音的波形相关低的波形构成的提示音的信号。

6.如权利要求5所述的声音信号处理系统，其特征在于，

在所述第二设备输出至所述扬声器的信号和所述扬声器输出信号中，包含如下声音的信号，该声音包含与所述第一设备的周围的噪声不同的噪声成分。

7.如权利要求3所述的声音信号处理系统，其特征在于，

所述第二设备在向所述扬声器输出所述扬声器输出信号之前，向所述声音信号处理装置输出所述扬声器输出信号。

8.如权利要求7所述的声音信号处理系统，其特征在于，还具备：

服务器，包含所述声音信号处理装置和声音生成装置，

所述第二设备从所述声音生成装置输入所述扬声器输出信号，

所述声音生成装置向所述第二设备输出所述扬声器输出信号，

所述声音生成装置代替所述第二设备向所述声音信号处理装置输出所述扬声器输出信号。

9.如权利要求2所述的声音信号处理系统，其特征在于，

所述声音信号处理系统还具备声音翻译装置，

所述声音信号处理装置将去除了所述扬声器输出信号所包含的波形后的所述麦克风输入信号输出至所述声音翻译装置，

所述声音翻译装置从所述声音信号处理装置输入去除了所述扬声器输出信号所包含的波形后的所述麦克风输入信号，进行翻译而生成声音，并输出至所述第三设备，

所述第三设备将所述翻译后的声音作为所述第三扬声器输出信号。

10.如权利要求1所述的声音信号处理系统，其特征在于，还具备：

机器人，包含所述第一设备、第四设备和移动用电机，

所述第四设备与对所述移动用电机的声响进行收集的第四麦克风连接，将由所述第四麦克风输入的信号作为第四扬声器输出信号输出至所述声音信号处理装置，

所述声音信号处理装置进一步使所述麦克风输入信号所包含的波形与所述第四扬声器输出信号所包含的波形同步，

所述声音信号处理装置进一步从所述麦克风输入信号所包含的波形中，去除所述第四扬声器输出信号所包含的波形。

11.如权利要求10所述的声音信号处理系统，其特征在于，

所述声音信号处理装置根据所述第一设备与所述第二设备的距离，确定所述扬声器输出信号所包含的波形的振幅，对所述扬声器输出信号所包含的波形的去除的执行进行判定。

12.一种声音信号处理装置，从多个设备输入信号，其特征在于，

从所述多个设备之中的第一设备输入麦克风输入信号，

输入与从所述多个设备之中的第二设备输出至扬声器的信号相同的扬声器输出信号，

使所述麦克风输入信号所包含的波形与所述扬声器输出信号所包含的波形同步，

从所述麦克风输入信号所包含的波形中，去除所述扬声器输出信号所包含的波形。

13.如权利要求12所述的声音信号处理装置，其特征在于，

输入与从所述多个设备之中的第三设备输出至第三扬声器的信号相同的第三扬声器输出信号，

进一步使所述麦克风输入信号所包含的波形与所述第三扬声器输出信号所包含的波形同步，

进一步从所述麦克风输入信号所包含的波形中，去除所述第三扬声器输出信号所包含的波形。

14.如权利要求12所述的声音信号处理装置，其特征在于，

对所述麦克风输入信号或者所述扬声器输出信号进行变换，以使所述麦克风输入信号的采样频率与所述扬声器输出信号的采样频率成为一个频率，

基于所述变换后的麦克风输入信号的波形与所述扬声器输出信号的波形的相关计算，确定所述变换后的麦克风输入信号的波形与所述扬声器输出信号的波形的时间关系，或者基于所述麦克风输入信号的波形与所述变换后的扬声器输出信号的波形的相关计算，确定所述麦克风输入信号的波形与所述变换后的扬声器输出信号的波形的时间关系，

使用所述确定的时间关系来进行同步。

15.如权利要求14所述的声音信号处理装置，其特征在于，

对所述扬声器输出信号的功率或者所述变换后的扬声器输出信号的功率进行计测，进一步使用所计测出的功率来进行同步。