CN108735207B

CN108735207B - 声音对话系统、声音对话方法及计算机可读存储介质

Info

Publication number: CN108735207B
Application number: CN201810369671.3A
Authority: CN
Inventors: 池野笃司; 水摩智; 坂本快矢统; 今野裕人; 西岛敏文; 刀根川浩巳; 梅山伦秀; 佐佐木悟
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-04-25
Filing date: 2018-04-24
Publication date: 2023-05-02
Anticipated expiration: 2038-04-24
Also published as: US20180308478A1; JP2018185401A; US10629202B2; JP6531776B2; CN108735207A

Abstract

本发明提供一种声音对话系统、声音对话方法及计算机可读存储介质。声音对话系统具备：扬声器；麦克风，在从所述扬声器输出声音的期间将麦克风增益设定得低；声音识别部，对从所述麦克风输入的输入声音数据实施声音识别处理；声音输出部，生成输出声音数据而从所述扬声器输出；以及不可听声输出部，在以阈值以下的时间间隔输出多个声音输出的情况下，至少在所述多个声音输出之间从所述扬声器输出不可听声。

Description

声音对话系统、声音对话方法及计算机可读存储介质

技术领域

本发明涉及声音对话系统。

背景技术

作为声音对话系统声音识别失败的原因，可举出如下原因：麦克风拾取正从扬声器输出的声音，以拾取到的声音为对象而开始声音识别处理。为了应对这种情况，声音对话系统具有在声音输出过程中关断麦克风或者下调增益的声音开关功能。

在此，在声音对话系统以比较短的间隔连续地进行两个声音输出的情况下，在其之间麦克风按以往那样发挥功能。设想在其之间用户开始发声，在该情况下，在由于第2个声音输出而麦克风被关断的时间点用户发声的输入被切断，所以会根据至中途为止的发声来进行声音识别从而不正确地进行动作。另外，声音对话系统还有时发出声音数据，之后隔开些微的时间来输出表示能够接受用户的声音输入的信号(例如“噼叩(piko)”声)。此时，在发声数据的输出过程中以及信号音的输出过程中不拾取声音，但产生在两个输出之间拾取到不需要的声音(不想输入的用户语音或周围的噪音)这样的问题。

在现有技术(专利文献1－5)中，为了防止输入目的声音以外的声音而进行使非目的声音衰减的操作。在这些文献中进行如下处理。首先，判别作为目的的说话者的输入声音信号从目的方向到来的目的声音区间、以及作为说话者以外的声音的干扰声音(说话者以外的声音)、与其重叠的周边噪音等非目的声音区间。然后，在非目的声音区间，下调麦克风的增益，从而使非目的声音衰减。

然而，在这些现有技术中，无法解决上述问题。

现有技术文献

专利文献

专利文献1：日本特开2013-125085号公报

专利文献2：日本特开2013-182044号公报

专利文献3：日本特开2014-75674号公报

专利文献4：国际公开第2014/054314号公报

专利文献5：日本特开2005-25100号公报

发明内容

本发明的目的在于防止在声音对话系统以短时间输出多次声音的情况下接受不需要的声音输入而产生设想外的动作。

本发明的一个方案的声音对话系统，具备：

扬声器；

麦克风，在从所述扬声器输出声音的期间将麦克风增益设定得低；

声音识别部，对从所述麦克风输入的输入声音数据实施声音识别处理；

声音输出部，将输出声音数据从所述扬声器输出；以及

不可听声输出部，在以阈值以下的时间间隔输出多个声音输出的情况下，至少在所述多个声音输出之间从所述扬声器输出不可听声。

在本方案的声音对话系统中，在从扬声器输出声音的期间，与不是这样的情况相比，将麦克风增益设定得低。要将麦克风增益设定得低，还包括关断麦克风功能。

本方案中的扬声器能够输出不可听声。不可听声既可以比可听声高也可以比其低。可听声一般是指20Hz～20kHz，但只要为17kHz左右以上就无法听到的用户十分多，所以作为不可听声，也可以采用17kHz或者其以上的声。另外，不可听声只要为如在通常的使用方案中用户无法听到那样的声即可，也可以包含一部分可听声频率的声分量。本方案中的麦克风既可以能够获取扬声器输出的不可听声，也可以无法获取扬声器输出的不可听声。

本方案中的不可听声输出部在声音对话系统以阈值以下的时间间隔输出多个声音输出的情况下，至少在其之间从扬声器输出不可听声。时间间隔阈值例如只要设为如两个声音输出连续且不设想在两个声音之间用户发声那样的时间间隔即可。输出的不可听声可以是任意的，例如能够采用不可听声频域内的白噪声或单一频率声。输出不可听声的定时包括从先前的声音输出的结束时间点至之后的声音输出的开始时间点为止即可。例如，输出不可听声的定时可以设为从先前的声音输出的开始时间点至之后的声音输出的结束时间点为止。

在本方案中，优选具有在以所述阈值以下的时间间隔输出第1声音和第2声音的情况下进行以下记载的处理的控制部。即，控制部指示第1声音的再生开始，并且指示不可听声的连续再生开始，在第1声音的再生结束后，指示第2声音的再生开始以及不可听声的连续再生结束。不可听声的连续再生结束的指示优选与第2声音的再生开始指示同时或者在其之后进行。或者，控制部也可以指示第1声音的再生开始，并且指示所述不可听声的连续再生开始，在第1声音的再生结束后指示第2声音的再生开始，在第2声音的再生结束后指示不可听声的连续再生结束。

本方案中的声音识别部对从麦克风输入的输入声音数据实施声音识别处理。此时，声音识别部在输入声音数据的可听频带下的音量为预定值以上的情况下进行声音识别处理即可。另外，声音识别部将通过滤波处理而去除不可听声后的声音数据作为识别对象。

此外，本发明还能够理解成具备上述单元中的至少一部分单元的声音对话系统。本发明另外能够理解成执行上述处理中的至少一部分处理的声音对话方法或者发声输出方法。另外，本发明还能够理解成用于使计算机执行该方法的计算机程序、或者非临时地存储有该计算机程序的计算机可读存储介质。上述单元以及处理分别能够尽可能地相互组合而构成本发明。

根据本发明，能够防止在声音对话系统短时间输出多次声音的情况下产生接受不需要的声音输入而产生的非预期的动作。

附图说明

图1是示出实施方式的声音对话系统的系统结构的图。

图2是示出实施方式的声音对话系统的功能结构的图。

图3是示出实施方式的声音对话系统中的声音对话方法的整体的处理的流程的流程图。

图4是示出实施方式的声音对话系统中的对话处理(发声处理)的流程的例子的图。

图5是说明实施方式的声音对话系统中的对话处理(发声处理)的图。

具体实施方式

以下，参照附图，例示性地详细说明本发明的优选实施方式。以下说明的实施方式是将声音对话机器人用作本地的声音对话终端的系统，但本地的声音对话终端不是必须为机器人，能够使用任意的信息处理装置、声音对话接口等。

<系统结构>

图1是示出本实施方式的声音对话系统的系统结构的图，图2是示出功能结构的图。如图1、图2所示，本实施方式的声音对话系统包括机器人100、智能手机110、声音识别服务器200、对话服务器300。

机器人(声音对话机器人)100包括麦克风(声音输入部)101、扬声器(声音输出部)102、声音开关控制部103、不可听声噪声输出部104、命令收发部105、通信部(BT：蓝牙(Bluetooth(注册商标)))106。虽然省略了图示，但机器人100具有图像输入部(摄像机)、可动关节(脸部、手臂、腿部等)、该可动关节的驱动控制部、各种灯、该灯的点亮及熄灭等的控制部等。

机器人100利用麦克风101获取来自用户的声音，利用图像输入部获取对用户进行拍摄而得到的图像。机器人100经由通信部105将输入声音和输入图像发送到智能手机110。机器人100当从智能手机110获取命令时，与其相应地从扬声器102输出声音、或者驱动可动关节部。

声音开关控制部103在从扬声器102输出声音的期间，进行使麦克风101的增益下降的处理。如后所述，在本实施方式中，在输入声音的音量为阈值以上的情况下进行声音识别处理。因而，声音开关控制部103只要使麦克风的增益下降成为不使声音识别处理开始的程度的音量即可。声音开关控制部103也可以将增益设定为零。在本实施方式中，机器人100针对麦克风101及扬声器102不进行开启/关断控制，这些开启/关断控制根据来自智能手机110的指示而进行。机器人100利用声音开关控制部103防止从扬声器102输出的声音被输入到麦克风101。

不可听声噪声输出部104控制成从扬声器102输出不可听声频域的白噪声。如后所述，不可听声噪声输出部104的输出根据来自接收到声音输出命令的命令收发部105的指示而进行。

命令收发部105经由通信部(BT)106从智能手机110收取命令，依照该命令而控制机器人100。另外，命令收发部105经由通信部(BT)106将命令发送到智能手机110。

通信部(BT)106依照蓝牙(Bluetooth(注册商标))标准而在与智能手机110之间进行通信。

智能手机110为包括微型处理器等运算装置、存储器等存储部、触摸屏等输入输出装置、通信装置等的计算机。智能手机100通过由微型处理器执行程序而具备输入声音处理部111、声音合成处理部112、控制部113、通信部(BT)117、通信部(TCP/IP)118。

输入声音处理部111收取来自机器人100的声音数据，经由通信部118发送到声音识别服务器200，委托声音识别处理。此外，也可以当输入声音处理部111进行一部分的前处理(噪音去除、说话者分离等)以后，向声音识别服务器200委托声音识别处理。输入声音处理部111经由通信部118将基于声音识别服务器200的声音识别结果发送到对话服务器300，委托生成响应用户发声的响应文的文本(使机器人100发声的语句)。

声音合成处理部112获取响应文的文本，进行声音合成处理，生成使机器人100发声的声音数据。

控制部113掌管智能手机110的整体的处理。通信部(BT)117依照蓝牙(Bluetooth(注册商标))标准，在与机器人100之间进行通信。通信部(TCP/IP)118依照TCP/IP标准，在与声音识别服务器200及对话服务器300之间进行通信。

声音识别服务器200为包括微型处理器等运算装置、存储器、通信装置等的计算机，具备通信部201以及声音识别处理部202。声音识别服务器200还优选使用与现有技术相关的非目的声音的去除技术。声音识别服务器200具有丰富的资源，能够进行高精度的声音识别。

对话服务器300为包括微型处理器等运算装置、存储器、通信装置等的计算机，具备通信部301、响应制作部302、信息存储部303。用于响应制作的对话脚本保存于信息存储部303。响应制作部302参照信息存储部303的对话脚本，制作针对用户发声的响应。对话服务器300具有丰富的资源(高速的运算部、大容量的对话脚本DB等)，能够生成高度的响应。

<整体处理>

参照图3，说明本实施方式的声音对话系统中的整体的处理的流程。反复执行图3所示的流程图的处理。

在步骤S10中，当机器人100从麦克风101接受用户发声的声音输入时，机器人100经由通信部106将输入声音数据发送到智能手机110的输入声音处理部111。然后，输入声音处理部111将该输入声音数据发送到声音识别服务器200。

在步骤S11中，声音识别服务器200的声音识别处理部202实施声音识别处理。

此外，设为在用户的发声的音量(可听频带范围下的音量)为预定值以上的情况下实施步骤S11的声音识别处理。因此，智能手机110的输入声音处理部111可以通过滤波处理从输入声音数据抽取可听频带分量，确认抽取后的声音数据音量。输入声音处理部111仅在该音量为预定值以上的情况下将声音数据发送到声音识别服务器200。发送到声音识别服务器200的声音数据也可以设为滤波处理后的声音数据，但也可以直接发送输入声音数据。

在步骤S12中，智能手机110的输入声音处理部111获取基于声音识别服务器200的识别结果。输入声音处理部111将声音识别结果发送到对话服务器300，委托响应文的制作。此外，此时也可以将除了声音识别结果以外的信息、例如用户的脸部图像、当前位置等信息发送到对话服务器300。另外，在此，经由智能手机110将声音识别结果从声音识别服务器200发送到对话服务器300，但也可以直接将声音识别结果从声音识别服务器200送到对话服务器300。

在步骤S13中，对话服务器300的响应制作部302生成针对声音识别结果的响应的文本。此时，参照存储于信息存储部303的对话脚本。由对话服务器300生成的响应文文本被发送到智能手机110。

在步骤S14中，当智能手机110从对话服务器300接收到响应文文本时，声音合成处理部112通过声音合成处理来生成响应文文本的声音数据。

在步骤S15中，依照来自智能手机110的指示，机器人100输出响应文的声音。具体而言，智能手机110的控制部113生成包含声音数据的声音输出命令，发送到机器人100，机器人100根据该命令从扬声器102输出响应文的声音数据。在本实施方式中，来自机器人100的声音输出基本上通过隔开短的时间间隔而连续地输出对话服务器300生成的响应文和对用户催促发声的信号音而进行。即，在从机器人100进行任意的发声的情况下，在响应文输出之后，输出用于向用户传递系统发声完成和声音识别开始的信号音(例如，“噼叩(piko)”声)。此时，在本实施方式中，实施用于避免获取系统发声之间的用户发声而作为声音识别处理的对象的处理。以下说明详细内容。

<声音输出处理>

图4是说明在本实施方式的声音对话系统中从机器人100输出声音时的处理(图3的步骤S15)的图。如上所述，在本实施方式中，以短的时间间隔连续地从机器人100输出对话服务器300生成的响应文和对用户催促发声的信号音。图4为这样以阈值以下的时间间隔连续地输出两个声音输出的情况下的处理。在进行单一的声音输出的情况或隔开阈值以上的时间间隔而进行多个声音输出的情况下，无需依照图4所示的处理。

在步骤S20中，智能手机110的控制部113获取由声音合成处理部112生成的响应文的声音数据。

在步骤S21中，控制部113生成指示(1)响应文声音的再生开始和(2)不可听声噪声的循环再生开始(连续再生开始)的声音输出命令，发送到机器人100。

当机器人100接收到该命令时，从扬声器102开始响应文的声音数据的再生(S31)，并且还开始不可听声噪声的循环再生(S32)。不可听声噪声的循环再生通过由不可听声噪声输出部104将不可听声噪声的声音数据反复输出到扬声器102而进行。由此，从扬声器102输出将响应文声音与不可听声噪声重叠而成的声音，在响应文声音的再生结束后仅输出不可听声噪声。不可听声噪声的声音数据预先存储于机器人100即可，但也可以由机器人100动态地生成、或者从智能手机110交付给机器人100。

在此，关于不可听声噪声，为了避免用户能够听到，为不可听声频域(20Hz～20kHz以外)的声即可。另外，不可听声噪声的输出以使声音开关控制部103的麦克风增益降低处理有效的方式进行。例如，如果为了使麦克风增益降低处理有效而需要以阈值以上的音量(强度)输出，则以该阈值以上的音量输出不可听声噪声。

在机器人100进行声音输出的期间，声音开关控制部103进行下调麦克风101的增益的控制。因而，能够防止在声音输出过程中从麦克风101获取输出过程中的声音、用户发声等而成为声音识别处理的对象。

当经过预定的时间时，机器人100中的响应文的再生(S31)结束。在此，机器人100的命令收发部105也可以通过通信将响应文的再生完成了这一情况通知给智能手机110。另一方面，不可听声噪声被进行循环再生，所以只要未接受明确的停止指示就继续再生。

当接受了响应文再生完成的通知时，智能手机110发送指示用于对用户催促发声的信号音的再生开始的声音输出命令(S22)。也可以不根据再生完成通知而在从响应文的输出命令发送起预定时间后(由响应文的长度来确定)，发送指示信号音的再生开始的声音输出命令。

另外，智能手机110在紧接着信号音的再生开始命令发送之后，发送指示不可听声噪声的循环再生停止的声音输出命令(S23)。此外，信号音的再生开始指示和不可听声噪声的循环再生停止指示也可以同时送到机器人100。

机器人100当接受了信号音的再生开始指示时，从扬声器102输出信号音(S33)。信号音的声音数据既可以保存于声音输出命令内并从智能手机110交付给机器人100，也可以利用预先保存于机器人100的声音数据。另外，机器人100当接受了不可听声噪声的循环再生停止指示时，使不可听声噪声的输出停止。

在上述处理中，不可听声噪声的循环再生停止指示为与信号音的再生开始指示同时或者在其之后即可。因而，例如也可以在智能手机110从机器人100收取到信号音的再生完成通知之后，将不可听声噪声的循环再生指示发送到机器人100。另外，也可以在机器人110探测到信号音的再生完成的阶段，机器人110使不可听声噪声的连续再生停止。在为这些手法的情况下，严格来说，在信号音的再生完成之后不可听声噪声的再生停止，但对于用户而言，信号音与不可听声噪声的再生大致同时结束。

<作用及效果>

参照图5(A)、图5(B)，说明本实施方式中的声音输出处理的作用及效果。图5(A)是示出进行本实施方式的声音输出时的、输出声音与麦克风增益的关系的图。图5(B)是作为比较例而示出不进行不可听声噪声的输出而连续地输出两个声音(响应文和信号音)时的、输出声音与麦克风增益的关系的图。图中的定时a、b是响应文的输出开始以及结束定时，定时c、d是信号音的输出开始以及结束定时。

在任意的手法中，在响应文的输出过程中(定时a～b)以及信号音的输出过程中(定时c～d)，都由声音开关控制部103下调麦克风增益。因而，避免其之间的用户发声及扬声器102的输出声音成为声音识别处理的对象。

在此，在为不使用不可听声噪声的手法(图5(B))的情况下，在响应文的输出结束时间点b至信号音的输出开始时间点c的期间不从扬声器102输出声音。即，在定时b～c的期间，声音开关控制部103不发挥功能，而麦克风增益被设定为通常的值。因而，在该期间，有可能发生不想输入的用户语音或周围的噪音等不需要的声音被输入的事态。而且，根据情况，有可能会针对在该期间获取到的声音执行声音识别处理，产生不想要的动作。

相对于此，在为本实施方式的手法(图5(A))的情况下，在输出响应文之后也继续不可听声噪声的循环再生。即，在定时b～c的期间也由声音开关控制部103将麦克风增益设定得低。因而，在该期间，不会被输入不想输入的用户语音或周围的噪音等不需要的声音而执行声音识别处理，能够抑制不想要的动作的产生。

另外，在本实施方式中，智能手机110与机器人100通过无线通信连接，在来自机器人100的声音输出的定时由于控制延迟、通信延迟等的原因而在智能手机110中有时还无法严密地掌握。在本实施方式中，即使无法在智能手机110中掌握响应文声音及信号音的再生开始、结束的严密的定时，也能够保证在响应文与信号音的再生之间的间隔输出不可听声噪声，因而，能够抑制在该期间输入不需要的声音。

<变形例>

上述实施方式以及变形例的结构能够在不脱离本发明的技术思想的范围内适当地组合利用。另外，本发明也可以在不脱离其技术思想的范围适当地施加变更来实现。

在上述说明中，将焦点放在以短的时间间隔连续地输出两个声音的情况下的处理而进行了说明。在进行仅1个声音输出的情况或隔开阈值以上的时间间隔而输出多个声音输出的情况下，无需进行如在上述中说明那样的图4所示的处理。因而，智能手机110也可以判断是否以阈值以下的时间间隔进行多个声音输出，仅在是这样的情况下执行图4所示的处理。或者，当在输出任意的声音的情况下都一定以阈值以下的时间间隔输出另外的声音的情况下，也可以不插入判断处理而始终执行图4所示的处理。

在上述说明中，作为连续地输出的声音，例示出响应文与信号音的组合，但输出声音的内容不被特别限定。另外，连续的声音不是必须为两个，也可以连续地输出3个以上的声音。

声音对话系统无需如上述实施方式那样由机器人、智能手机、声音识别服务器、对话服务器等构成。只要能够实现上述功能，就也可以以任意的方式构成系统整体。例如，也可以由1个装置执行所有的功能。或者，也可以由多个装置分担地执行在上述实施方式中由1个装置实施的功能。另外，各功能不是必须由上述装置执行。例如，也可以构成为在机器人中执行由智能手机执行的处理的一部分。

Claims

1.一种声音对话系统，具备：

扬声器；

麦克风；

声音开关控制部，在从所述扬声器输出声音的期间，使所述麦克风的增益下降成为不使声音识别处理开始的程度的音量；

声音识别部，对从所述麦克风输入的输入声音数据实施所述声音识别处理；

声音输出部，将输出声音数据从所述扬声器输出；以及

2.根据权利要求1所述的声音对话系统，其中，

所述声音对话系统还具备控制部，该控制部在以所述阈值以下的时间间隔输出第1声音和第2声音的情况下，

指示所述第1声音的再生开始，并且指示所述不可听声的连续再生开始，

在所述第1声音的再生结束后，指示所述第2声音的再生开始以及所述不可听声的连续再生结束。

3.根据权利要求1所述的声音对话系统，其中，

在所述第1声音的再生结束后，指示所述第2声音的再生开始，

在所述第2声音的再生结束后，指示所述不可听声的连续再生结束。

4.根据权利要求1所述的声音对话系统，其中，

所述声音识别部在所述输入声音数据的可听频带下的音量为预定值以上的情况下进行声音识别处理。

5.一种声音对话方法，是声音对话系统执行的声音对话方法，所述声音对话系统具备：扬声器；麦克风；以及声音开关控制部，在从所述扬声器输出声音的期间，使所述麦克风的增益下降成为不使声音识别处理开始的程度的音量，所述声音对话方法包括：

第1声音输出步骤，从所述扬声器输出第1输出声音数据；

第2声音输出步骤，从所述第1输出声音数据的输出起以阈值以下的时间间隔从所述扬声器输出第2输出声音数据；以及

不可听声输出步骤，至少在所述第1输出声音数据的输出与所述第2输出声音数据的输出之间从所述扬声器输出不可听声。

6.一种计算机可读存储介质，

所述计算机可读存储介质非临时地存储有用于使计算机执行权利要求5所述的声音对话方法的各步骤的程序。