CN107798055B

CN107798055B - 语音交互设备和使用语音交互设备的自动交互方法

Info

Publication number: CN107798055B
Application number: CN201710785845.XA
Authority: CN
Inventors: 河原达也; 高梨克也; 中西亮辅; 渡部生圣
Original assignee: Kyoto University; Toyota Motor Corp
Current assignee: Kyoto University; Toyota Motor Corp
Priority date: 2016-09-06
Filing date: 2017-09-04
Publication date: 2021-07-20
Anticipated expiration: 2037-09-04
Also published as: CN107798055A; US10339930B2; JP6461058B2; JP2018040897A; US20180068660A1

Abstract

提供了一种语音交互设备和使用语音交互设备的自动交互方法。语音交互设备包括：估计单元，该估计单元被配置成基于由输入单元输入的用户话语来估计是等待用户的下一句话语还是由语音交互设备执行输出话语的输出；以及应答控制单元，该应答控制单元被配置成当估计单元不能估计是等待用户的下一句话语还是由语音交互设备执行输出话语的输出时，通过执行补白输出和点头动作中的至少一个来进行应答，所述补白输出是来自输出单元的补白即与交互内容无关的连接声的输出，并且所述点头动作是前后摆动伪头部的动作。

Description

语音交互设备和使用语音交互设备的自动交互方法

技术领域

本公开涉及语音交互设备和使用该语音交互设备的自动交互方法。

背景技术

使用户能够享受与语音交互式机器人的日常对话的技术越来越普及。例如，作为用于实现不给人不自然的印象的对话的技术，已知这样一种技术，在该技术中，交互式机器人通过分析用户话语的韵律，在适当的时刻进行附和应答(参见日本未审查专利申请公开第2009-3040号)。此外，已经进行了关于寻找在用户与机器人之间改变说话者的时刻的研究(参见Cognitive Science Research Paper第7卷(2000)第1期第93至106页)。

发明内容

存在这样的情况：难以通过分析用户话语的韵律来作出关于交互式机器人是应该说出下一句话语还是等待用户的话语的明确估计。在这样的情况下，交互式机器人与用户之间继续沉默，或者交互式机器人和用户的话语交叠，这会妨碍用户享受流畅的对话。

做出本公开是为了解决这样的问题并且提供用于实现作为语音交互系统的示例的交互式机器人与用户之间的流畅对话的技术。

本公开的第一示例性方面是语音交互设备，该语音交互设备包括：输入单元，该输入单元被配置成输入由用户说出的输入话语；输出单元，该输出单元被配置成输出对用户说出的输出话语；估计单元，该估计单元被配置成基于由输入单元输入的输入话语来估计是等待由所述输入单元输入输入话语还是由输出单元执行输出话语的输出；以及应答控制单元，该应答控制单元被配置成当估计单元不能估计是等待由输入单元输入输入话语还是由输出单元执行输出话语的输出时，通过执行补白输出和点头动作中的至少一个来进行应答，所述补白输出是来自输出单元的补白的输出，补白是与交互内容无关的连接声，并且所述点头动作是前后摆动伪头部的动作。

本公开的第二示例性方面是使用语音交互设备的自动交互方法，该语音交互设备包括被配置成输入由用户说出的输入话语的输入单元以及被配置成输出对所述用户说出的输出话语的输出单元。自动交互方法包括：基于由输入单元输入的输入话语来估计是等待由输入单元输入输入话语还是由输出单元执行输出话语的输出；以及当在进行估计时不能估计是等待由输入单元输入输入话语还是由输出单元执行输出话语的输出时，通过执行补白输出和点头动作中的至少一个来进行应答，所述补白输出是来自输出单元的补白的输出，补白是与交互内容无关的连接声，并且点头动作是前后摆动伪头部的动作。

根据上述示例性方面的配置，可以暗示语音交互设备通过发出补白声来拥有话语权或者通过点头动作来提示用户说话，从而防止语音交互设备与用户之间继续沉默或者语音交互设备和用户的话语发生交叠。

根据本公开，可以实现语音交互系统与用户之间的流畅对话。

本发明的上述和其他目的、特征和优点将从以下给出的详细描述和附图中被更充分地理解，描述和附图仅以说明的方式给出，因此不应认为是限制本发明。

附图说明

图1是示出用户正在与根据本公开的交互式机器人对话的状态的图；

图2是示出根据第一实施方式的交互式机器人的系统配置的图；

图3是示出根据第一实施方式的应答确定表的图；

图4是示出根据第一实施方式的交互处理流程的图；

图5是示出根据第二实施方式的应答确定表的图；

图6是示出根据第二实施方式的交互处理流程的特征部分的图；

图7是示出根据第三实施方式的交互式机器人的系统配置的图；

图8是示出根据第三实施方式的应答确定表的图；

图9是示出根据第三实施方式的交互处理流程的特征部分的图；

图10是示出根据第四实施方式的应答确定表的图；

图11是示出根据第五实施方式的交互处理流程的特征部分的图；

图12是示出根据第六实施方式的交互处理流程的特征部分的图；以及

图13是示出根据其他实施方式的智能电话的外观的图。

具体实施方式

在下文中，尽管将参照本发明的实施方式来描述本公开，但是根据权利要求的本公开不限于以下实施方式。此外，以下实施方式中描述的所有部件对用于解决问题的手段不一定是必不可少的。

图1是示出用户正在与根据本公开的交互式机器人100进行对话的状态的图。交互式机器人100是语音交互设备的一种形式，并且根据用户的话语进行应答。交互式机器人100具有模拟例如生物(如人类)的外壳以减少给用户的非生物印象。如图1所示，交互式机器人100具有这样的外观：伪头部110被设置在包括肢体的身体部分120上。在头部110上，麦克风111被布置在认为耳朵应该位于的颞部周围。麦克风111收集用户的话语。扬声器112被设置在伪口中。扬声器112说出并且发出由交互式机器人100生成的应答。在下面的描述中，具有交互内容的含义的语音被称为“话语”，而与交互内容无关的连接语音被称为“发声”。当不需要特别地区分术语“话语”和“发声”时，可以将“话语”和“发声”统称为“话语”。

图2是示出根据本公开的第一实施方式的交互式机器人100的系统配置的图。交互式机器人100包括作为主要功能元件的话语输入单元210、分析单元220、估计单元230、应答控制单元240、输出生成单元250和话语输出单元260。

话语输入单元210包括麦克风111。话语输入单元210收集用户的话语，将话语转换成数字信号，并且将数字信号传递给分析单元220。分析单元220分析作为数字信号接收的用户的话语的韵律。韵律是在声波中捕获的话语的物理特征的表示。

对韵律的分析是这样的处理：计算例如基频及其波动带、振幅的最大值和平均值作为用户发出的一组声波中的特征，并且将所述特征转换成数值。分析单元220将接收到的数字信号划分成例如均为25毫秒的窗口宽度，并且使用所划分的窗口中的每一个作为该一组声波来计算其中的相应特征。然后，分析单元220以例如10毫秒的延迟时间顺序地移动窗口，计算经移动的窗口中的每一个中的特征，然后将所计算的特征连续不断地传递给估计单元230。

此外，分析单元220根据韵律的改变来预测用户话语中的断点，并且将断点的时刻输出至应答控制单元240。话语中的断点是一系列对话中的分隔符。分析单元220根据振幅水平的降低或者根据句子结束的语调来预测断点。

估计单元230基于接收到的表示韵律的物理特征来估计是等待用户的话语还是交互式机器人100应该说话。更具体地，在本公开中，估计单元230计算变化概率P作为估计值，变化概率P是说话者将从用户转换到交互式机器人100的概率。变化概率P＝0意味着用户继续具有话语权。变化概率P＝1意味着话语权从用户转换到交互式机器人100。变化概率P被计算为大于等于0且小于等于1的范围内的值。因此，当变化概率P接近于0时，强烈地估计到用户继续具有话语权，而当变化概率接近于1时，强烈地估计到话语权从用户转换到交互式机器人100。

估计单元230连接至韵律DB 310。韵律DB 310是例如硬盘驱动器的记录介质。韵律DB 310存储查找表或估计函数，该查找表或估计函数通过示出特征和变化概率的特定数值来指示表示韵律的特征对变化概率的影响的大小。估计单元230使用韵律DB 310的韵律的查找表或者估计函数将从分析单元220接收的韵律的物理特征转换成估计值，并且通过使用诸如多变量分析等方法来计算变化概率P。Cognitive Science Research Paper(2000)等公开了用于上述计算的特定方法的细节。

估计单元230将计算的变化概率P传递给应答控制单元240。当由分析单元220将关于用户话语中的断点的时刻通知给应答控制单元240时，应答控制单元240参考变化概率P并且确定要执行的一种应答。然后，从输出生成单元250获得用于执行所确定的应答的特定数据。

在本公开的第一实施方式中，应答控制单元240根据变化概率P的值从三种应答中选择应答，这三种应答为：“不进行应答”；“发出补白(filler)声”；以及“说出应答话语”。“不进行应答”是指示不作出特别应答的应答。然而，形式上，应答控制单元240参考输出生成单元250来设置非话语时间等。

当应答控制单元240确定“发出补白声”时，应答控制单元240使被实现为输出生成单元250的一个功能的补白生成单元251生成补白。补白是与交互内容无关的连接发声。补白的示例为“啊”、“嗯”、“所以”以及“我的意思是”。这些补白存储在补白DB 320中作为可再现的发声数据。

补白DB 320连接至补白生成单元251。补白DB 320由例如硬盘驱动器的记录介质构成。补白生成单元251通过例如根据来自应答控制单元240的请求随机提取存储在补白DB320中的发声数据来生成补白，并且将所提取的发声数据传递给应答控制单元240。

当应答控制单元240确定“说出应答话语”时，应答控制单元240使被实现为输出生成单元250的一个功能的应答生成单元252生成应答话语。应答话语是作为具有含义的交互对用户话语的内容进行应答的话语。

话语DB 330是连接至应答生成单元252的数据库。话语DB 330由例如硬盘驱动器的记录介质构成。话语DB 330被组织成例如语料库。话语DB 330将各个术语与可再现发声数据存储在一起。应答生成单元252根据来自应答控制单元240的请求从话语DB 330收集话语数据，构造为对话建立的句子，并且将这些句子传递给应答控制单元240。

应答生成单元252将由输出生成单元250生成的补白声数据和应答话语数据传递给话语输出单元260。话语输出单元260包括扬声器112。话语输出单元260将从应答生成单元252接收的补白声数据和应答话语数据转换成模拟信号，并且输出所述模拟信号作为来自扬声器112的声音。

图3是示出根据第一实施方式的应答确定表的图。如图3所示，当变化概率P大于等于0.0且小于0.5时，应答控制单元240确定“不进行应答”。类似地，当变化概率P大于等于0.5且小于0.8时，应答控制单元240确定“发出补白声”。类似地，当变化概率P大于等于0.8且小于等于1.0时，应答控制单元240确定“说出应答话语”。以这种方式，由应答控制单元240作出的应答种类被按照根据变化概率P的值的类别规则预先确定。

图3所示的类别规则限定了交互式机器人100应该等待由话语输入单元210输入输入话语即交互式机器人100应该等待用户说话的变化概率P的范围为大于等于0.0且小于0.5。类似地，类别规则限定了话语输出单元260应该输出输出话语即交互式机器人100本身应该说出有意义的内容的话语的变化概率P的范围为大于等于0.8且小于等于1.0。此外，类别规则限定了上述两个范围之间的范围即大于等于0.5且小于0.8的范围作为不能估计是等待由话语输入单元210输入输入话语还是由话语输出单元260执行输出话语的输出的范围。

在本实施方式中，当不能估计交互式机器人100是应该等待输入话语的输入还是执行输出话语的输出时，发出补白声以防止交互式机器人100与用户之间继续沉默或者防止用户的话语和交互式机器人100的话语交叠。已知补白声具有向对话伙伴暗示发出补白声的说话者具有话语权的效果。

图4是示出根据第一实施方式的交互处理流程的图。在检测到交互开始(如开关的操作)时开始图4所示的交互处理流程。

在步骤S101中，应答控制单元240估计用户是否已经开始说话。具体地，例如，应答控制单元240监测话语输入单元210的AD转换输出以进行估计。如果应答控制单元240估计到用户已经开始说话，则处理进行到步骤S102。

在步骤S102中，话语输入单元210输入用户的话语，将话语转换成数字信号，并且将数字信号传递给分析单元220。在步骤S103中，分析单元220根据从话语输入单元210接收的数字信号来分析韵律，并且将计算的特征传递给估计单元230。在步骤S104中，估计单元230使用从分析单元220接收的韵律的特征来计算变化概率P，并且将变化概率P传递给应答控制单元240。

在步骤S105中，应答控制单元240估计在用户的话语中是否存在断点。具体地，当从分析单元220接收到关于断点的时刻信息时，由时刻信息指示的点被估计为断点。当应答控制单元240估计到不存在断点时，处理返回至步骤S102，以进一步接受用户的话语。当应答控制单元240确定存在断点时，处理进行到步骤S106。

在步骤S106中，应答控制单元240估计交互是否已经结束。例如，当用户说“再见”或者当用户操作结束按钮时，应答控制单元240估计到交互已经结束，并且结束一系列处理。当应答控制单元240不能估计到交互已经结束时，处理进行到步骤S107以继续进行交互。

从步骤S107开始的处理是用于应答选择的处理。在步骤S107中，应答控制单元240估计变化概率P是否落入大于等于0.0且小于0.5的范围内。如果应答控制单元240估计到变化概率P落入该范围内，则处理进行到步骤S108，以等待用户的下一句话语。例如，处理等待预定时间段。然后，处理返回至步骤S101，以估计用户是否在该时间段期间开始说话，并且再次执行该一系列处理。

如果应答控制单元240在步骤S107中估计到变化概率P没有落入大于等于0.0且小于0.5的范围内，则处理进行到步骤S109，以估计变化概率P是否落入大于等于0.5且小于0.8的范围内。如果应答控制单元240估计到变化概率P落入该范围内，则处理进行到步骤S110，以发出补白声。当补白声结束时，处理返回至步骤S101，并且应答控制单元240估计用户是否在预定时间段内已经开始说话，并且再次执行该一系列处理。

如果应答控制单元240在步骤S109中估计到变化概率P没有落入大于等于0.5且小于0.8的范围内，或者如果应答控制单元240在步骤S101中估计到用户没有在预定时间段内开始说话，则处理进行到步骤S111，以生成应答话语数据并且执行话语的输出。当话语的输出结束时，处理返回至步骤S101，以估计用户是否在预定时间段内已经开始说话，并且再次执行该一系列处理。

如上所述，通过在不能估计到是等待输入话语的输入还是执行输出话语的输出时执行发出补白声，可以预期有助于流畅的交互而没有给人不自然的印象的时刻。

接下来，将描述本公开的第二实施方式。根据第二实施方式的交互式机器人100的设备配置与第一实施方式的交互式机器人100的设备配置相同，并且第二实施方式的流程的处理与第一实施方式的流程的处理略有不同。

图5是示出根据第二实施方式的应答确定表的图。在第一实施方式中，被估计为“发出补白声”的变化概率P的范围与被估计为“说出应答话语”的变化概率P的范围彼此不交叠。在第二实施方式中，提供了使上述两个变化概率P交叠的范围。具体地，当变化概率P大于等于0.5且小于0.8时，确定“发出补白声”，并且当变化概率P大于等于0.7且小于等于1.0时，确定“说出应答话语”。当变化概率P大于等于0.0且小于0.5时，与第一实施方式相同，确定“不进行应答”。

也就是说，当变化概率P大于等于0.7且小于0.8时，变化概率P属于“发出补白声”和“说出应答话语”两个类别。这是支持实验结果的措施，实验结果表明在变化概率P大于等于0.7且小于0.8的交互的情况下，存在以下混合情况：被估计为发出补白声会更好以及被估计为说出应答话语会更好。

下面将描述当以这种方式确定应答确定表时的处理。图6是示出根据第二实施方式的交互处理流程的特征部分的图。根据第二实施方式的交互处理流程除了应答选择的处理之外与参照图4描述的处理相同。此处将仅描述图4与图6中的处理之间的差异。在图6中，与图4中的步骤相同的步骤由相同的步骤编号表示，因此将省略其详细描述。

当变化概率P大于等于0.0且小于0.5时进行处理的步骤S107和S108与第一实施方式中的步骤S107和S108相同。如果变化概率P落入大于等于0.0且小于0.5的范围内，则应答控制单元240等待用户的话语(步骤S108)，并且处理返回至步骤S101。

在步骤S201中，应答控制单元240估计变化概率P是否落入大于等于0.5且小于0.7的范围内。如果变化概率P落入该范围内，则仅属于“发出补白声”。因此，应答控制单元240执行发出补白声(步骤S110)，并且处理返回至步骤S101。

在步骤S201中，应答控制单元240估计变化概率P是否落入大于等于0.7且小于0.8的范围内。如果变化概率P落入该范围内，则处理进行到步骤S203，在步骤S203中，应答控制单元240随机选择“仅发出补白声”、“仅说出应答话语”和“既发出补白声又说出应答话语”中的一个。如果选择“仅发出补白声”，则处理经由步骤S204(是)进行到步骤S110。如果选择“仅说出应答话语”，则处理经由步骤S204(否)和S205(是)进行到步骤S111。在步骤S111中，应答控制单元240生成应答话语数据并且执行话语的输出。当话语的输出结束时，处理返回至步骤S101。

如果应答控制单元240选择“既发出补白声又说出应答话语”，则处理经由步骤S204(否)和S205(否)进行到步骤S206。应答控制单元240在步骤S206中发出补白声，然后在步骤S207中输出应答话语。之后，处理返回至步骤S101。

如上所述，根据该实施方式，通过在交互的情况不明确时随机改变应答，可以预期流畅的交互而不给人留下机械的印象。通过在发出补白声之后输出应答话语，即使当交互式机器人100的话语与用户的话语交叠时，与用户的话语交叠的也将是补白。因此，可以说交叠对交互的不利影响相对较小。

接下来，将描述本公开的第三实施方式。在第一实施方式和第二实施方式中描述的补白声被优选地应用于变化概率P为0.5或更大时的情况。这是因为可以预期在第一实施方式和第二实施方式中描述的补白声具有向对话伙伴暗示作出这样的发声的说话者具有话语权的效果。然而，不能估计交互式机器人100是应该等待输入话语的输入还是执行输出话语的输出的变化概率P的范围可以包括0.0与小于0.5之间的范围。当变化概率P小于0.5时，可以认为优选地提示用户说话。

因此，在第三实施方式中，引入“点头动作”和“附和(backchannel)应答”，以执行提示用户说话的处理。图7是示出根据第三实施方式的交互式机器人100的系统配置的图。图7所示的系统配置中的与图2所示的系统配置的部件相同的部件由与图2中的附图标记相同的附图标记表示。因此，在第三实施方式中将省略对这些元件的描述。

图7所示的系统配置与图2所示的系统配置之间的差异在于，图7所示的系统配置还包括：连接至应答控制单元240的点头动作单元270、包括在输出生成单元250中的附和生成单元253以及连接至附和生成单元253的附和DB 340。点头动作单元270包括马达。通过驱动该马达，点头动作单元270执行前后摆动头部110的动作，以使交互式机器人100看起来好像在向用户点头。

在第三实施方式中，应答控制单元240根据变化概率P的值，除了选择“不进行应答”、“发出补白声”和“说出应答话语”以外，还可以选择“发出附和声”。附和是提示用户说出下一句话语的发声，以使用户在继续说话时感到舒服。附和的示例包括“是啊”、“对啊”、“然后呢？”。这些附和被存储在附和DB 340中作为可再现的发声数据。

附和DB 340由例如硬盘驱动器的记录介质构成。附和生成单元253通过例如根据来自应答控制单元240的请求随机提取存储在附和DB 340中的发声数据来生成附和，并且将所提取的发声数据传递给应答控制单元240。

图8是示出根据第三实施方式的应答确定表的图。在第一实施方式中，将指示“不进行应答”的一个类别分配给大于等于0.0且小于0.5的变化概率P的范围。然而，在第三实施方式中，将两个类别分配给该范围。具体地，如图8所示，当变化概率P大于等于0.0且小于0.4时，应答控制单元240确定“不进行应答”，而当变化概率P大于等于0.4且小于0.5时，应答控制单元240确定“发出附和声”。与第一实施方式类似，当变化概率P大于等于0.5且小于0.8时，应答控制单元240确定“发出补白声”，而当变化概率P大于等于0.8且小于等于1.0时，应答控制单元240确定“说出应答话语”。

在第三实施方式中，不能估计是等待由话语输入单元210输入输入话语还是由话语输出单元260执行输出话语的输出的范围(第一范围)被限定为大于等于0.4且小于等于0.8。此外，交互式机器人100应该等待用户话语的范围(第二范围)被限定为大于等于0.0且小于0.4，并且交互式机器人100本身应该说话的范围(第三范围)被限定为大于等于0.8且小于等于1.0。此外，第一范围被进一步划分为接近于第二范围的范围(大于等于0.4且小于0.5)以及接近于第三范围的范围(大于等于0.5且小于0.8)。当变化概率P落入第一范围内并且第一范围中的该范围接近于第二范围时，实施“发出附和声”，而如果变化概率P落入第一范围内并且第一范围中的该范围接近于第三范围，则实施“发出补白声”。可以与“执行点头动作”一起实施“发出附和声”，或者可以实施“执行点头动作”来代替“发出附和声”。

下面将描述当以这种方式确定应答确定表时的处理。图9是示出根据第三实施方式的交互处理流程的特征部分的图。根据第三实施方式的交互处理流程除了应答选择的处理之外与参照图4描述的处理相同。此处将仅描述图4与图9中的处理之间的差异。在图9中，与图4中的步骤相同的步骤由相同的步骤编号表示，因此将省略其详细描述。

首先，在步骤S301中，应答控制单元240估计变化概率P是否落入大于等于0.0且小于0.4的范围内。如果变化概率P落入该范围内，则交互式机器人100等待用户的话语(步骤S108)，并且处理返回至步骤S101。

在步骤S302中，应答控制单元240估计变化概率P是否落入大于等于0.4且小于0.5的范围内。如果变化概率P落入该范围内，则处理进行到步骤S303，并且应答控制单元240连同“发出附和声”一起执行点头动作。当该处理结束时，处理返回至步骤S101。变化概率P大于等于0.5且小于0.8时的处理和变化概率P大于等于0.8且小于等于1.0时的处理与第一实施方式中的相应处理相同。

如上所述，根据该实施方式，当不能估计交互式机器人100是应该等待输入话语的输入还是执行输出话语的输出时，并且当可以优选地提示用户说话时，通过发出附和声并且执行点头动作，可以预期流畅的交互。

接下来，将描述第四实施方式。图10是示出根据第四实施方式的应答确定表的图。在第四实施方式中，与第二实施方式类似，被估计为“发出补白声”的变化概率P的范围与被估计为“说出应答话语”的变化概率P的范围部分地交叠。此外，被估计为“不进行应答”的变化概率P的范围与被估计为“发出附和声”的变化概率P的范围部分地交叠。更具体地，当变化概率P大于等于0.0且小于0.4时，应答控制单元240确定“不进行应答”，而当变化概率P大于等于0.3且小于等于0.5时，应答控制单元240确定“发出附和声”。与第二实施方式类似，当变化概率P大于等于0.5且小于0.8时，应答控制单元240确定“发出补白声”，而当变化概率P大于等于0.7且小于等于1.0时，应答控制单元240确定“说出应答话语”。

也就是说，当变化概率P大于等于0.3且小于0.4时，变化概率P属于“不进行应答”和“发出附和声”两个类别。这是支持实验结果的措施，实验结果表明在变化概率P大于等于0.3且小于0.4的交互的情况下，存在以下混合情况：被估计为不进行应答会更好以及被估计为发出附和声会更好。当变化概率P大于等于0.3且小于0.4时，应答控制单元240随机选择“不进行应答”或“发出附和声”，并且执行所选择的动作。选择“发出附和声”时的处理与图9中的步骤S303的处理相同。

注意，“发出附和声”意在提示用户说话，而“发出补白声”意在向对话伙伴暗示发出补白声的说话者具有话语权。因此，优选地不使被估计为“发出附和声”的变化概率P的范围与被估计为“发出补白声”的变化概率P的范围交叠。如上所述，在该实施方式中，通过在交互情况不明确时使用变化概率P的值在应答时进行各种变化，可以预期流畅的交互而不给人留下机械的印象。

接下来，将描述第五实施方式。根据第五实施方式的交互式机器人100的设备配置与第一实施方式的交互式机器人100的设备配置相同。第五实施方式与第一实施方式之间的差异在于，在第五实施方式中，应答确定表中的变化概率P的范围被动态地改变。第一实施方式的应答确定表如图3所示，但是在该实施方式的应答确定表中，使用可变值Xp作为“发出补白声”与“说出应答话语”之间的边界值，即0.8。初始值为0.8。

图11是示出根据第五实施方式的交互处理流程的特征部分的图。根据第五实施方式的交互处理流程除了应答选择的处理之外与参照图4描述的处理相同。此处将仅描述图4与图11中的处理之间的差异。在图11中，与图4中的步骤相同的步骤由相同的步骤编号表示，因此将省略其详细描述。

变化概率P大于等于0.0且小于0.5时的步骤S107和S108的处理与第一实施方式中的处理相同。当变化概率P落入大于等于0.0且小于0.5的范围内时，应答控制单元240等待用户的话语(步骤S108)。然后，处理进行到步骤S402，在步骤S402中将初始值Xp₀分配给Xp。如上所述，在本示例中Xp₀为0.8。之后，处理返回至步骤S101。注意，步骤S108和S402的顺序可以颠倒。

如果在步骤S107中变化概率P被估计为没有落入大于等于0.0且小于0.5的范围内，则处理进行到步骤S401，在步骤S401中，应答控制单元240估计变化概率P是否落入大于等于0.5且小于Xp的范围内。如果应答控制单元240估计到变化概率P落入该范围内，则处理进行到步骤S110，以执行发出补白声。当发出补白声结束时，处理进行到步骤S403，在步骤S403中，Xp的值被更新为从Xp的当前值减去0.1而得到的值。然后，处理返回至步骤S101。注意，步骤S110和S403的顺序可以颠倒。

如果应答控制单元240在步骤S401中估计到变化概率P没有落入大于等于0.5且小于Xp的范围内，则处理进行到步骤S111并且执行话语的输出。当话语的输出结束时，处理进行到步骤S404，在步骤S404中，将初始值Xp₀分配给Xp。然后，处理返回至步骤S101。注意，步骤S111和S404的顺序可以颠倒。

根据该处理流程，每当处理被循环并且发出补白声时，作为引导到步骤S110的条件的变化概率P的范围变得更窄，并且执行步骤S111的处理——即输出话语——的概率变得更大。换言之，当在用户不说话或者交互式机器人100不说出应答话语的情况下继续发出补白声时，可以说估计单元230更可能估计到应该执行话语的输出。通过这样做，可以预期避免给人不自然的印象的情况，使得在交互中仅发出补白声。如果Xp的更新值为0.5或更低，则将Xp固定为下限值0.5。在这种情况下，补白声实际上是被禁止的。此外，要减去的值不限于0.1，而是可以调整为其他值。此外，可以设置用于对发出补白声的次数进行计数的变量而不是调整变化概率P的范围，并且当该变量达到预定次数时，可以禁止补白声。

接下来，将描述第六实施方式。

根据第六实施方式的交互式机器人100的设备配置与第一实施方式的交互式机器人100的设备配置相同。第六实施方式与第一实施方式之间的差异在于，在第六实施方式中，应答确定表中的变化概率P的范围被动态地改变。第一实施方式的应答确定表如图3所示，但是在该实施方式的应答确定表中，使用可变值Xq作为“不进行应答”与“发出补白声”之间的边界值，即0.5。初始值为0.5。

图12是示出根据第六实施方式的交互处理流程的特征部分的图。根据第六实施方式的交互处理流程除了应答选择的处理之外与参照图4描述的处理相同。此处将仅描述图4与图12中的处理之间的差异。

在步骤S501中，应答控制单元240估计变化概率P是否落入大于等于0.0且小于Xq的范围内。当变化概率P落入大于等于0.0且小于Xq的范围内时，应答控制单元240等待用户的话语(步骤S108)。然后，处理进行到步骤S505，在步骤S505中将初始值Xq₀分配给Xq。如上所述，在本示例中Xq₀为0.5。然后，处理返回至步骤S101。注意，步骤S108和S505的顺序可以颠倒。

如果应答控制单元240在步骤S501中估计到变化概率P没有落入大于等于0.0且小于Xq的范围内，则处理进行到步骤S502，在步骤S502中，应答控制单元240估计变化概率P是否落入大于等于Xq且小于0.8的范围内。如果应答控制单元240估计到变化概率P落入该范围内，则处理进行到步骤S110，以发出补白声。应答控制单元240估计在发出补白声时用户的话语是否已经与补白声交叠(步骤S503)。具体地，例如，应答控制单元240监测话语输入单元210的AD转换输出以进行估计。如果应答控制单元240估计到用户的话语已经与补白声交叠，则处理进行到步骤S504，在步骤S504中，Xq的值被更新为通过将0.1与Xq的当前值相加而获得的值。然后，处理返回至步骤S101。如果应答控制单元240估计到用户的话语与补白声尚没有交叠，则处理进行到S505，并且将初始值Xq₀分配给Xq。

如果应答控制单元240在步骤S502中估计到变化概率P没有落入大于等于Xq且小于0.8的范围内，则处理进行到步骤S111，在步骤S111中，执行话语的输出。当话语的输出结束时，处理进行到步骤S505，在步骤S505中，将初始值Xq₀分配给Xq。然后，处理返回至步骤S101。注意，步骤S111和S505的顺序可以颠倒。

根据该处理流程，每当处理被循环并且补白声与用户的话语交叠时，作为引导到步骤S110的条件的变化概率P的范围变得更窄，并且执行步骤S108的处理“不进行应答”的概率变得更大。换言之，当在发出补白声时检测到用户的话语时，估计单元230更可能估计到交互式机器人100应该等待用户的话语。也就是说，补白声与用户的话语交叠持续的情况是用户和交互式机器人100二者都坚持话语权的情况。为了避免这样的情况，交互式机器人100增加“不进行应答”的比例，使得用户感到说话更舒服。通过这样的处理，可以预期避免交互被中断的情况。如果Xq的更新值为0.8或更大，则将Xq固定为上限值0.8。在这种情况下，补白声实际上是被禁止的。此外，要相加的值不限于0.1，而是可以调整为其他值。此外，可以设置用于对补白声与用户话语交叠的次数进行计数的变量而不是调整变化概率P的范围，并且当该变量达到预定次数时，可以禁止发出补白声。

尽管上述第五实施方式和第六实施方式是基于第一实施方式的，但是可以通过适当地调整数值来将第五实施方式和第六实施方式与第二实施方式至第四实施方式进行组合。此外，第五实施方式和第六实施方式可以彼此进行组合。

在第三实施方式和第四实施方式中，已经描述了既执行附和发声又执行点头动作，但是可以执行附和发声和点头动作中的任何一个。如果省略节点动作的处理，则可以删除点头动作单元270。在第三实施方式和第四实施方式中，在应答确定表中提供了用于“发出附和声”的变化概率P的范围以及用于“发出补白声”的变化概率P的范围。然而，可以删除用于“发出补白声”的变化概率P的范围。在这种情况下，可以将用于“说出应答话语”的变化概率P的范围设置为大于等于0.5且小于等于1.0。

在上述实施方式中，已经将交互式机器人100描述为语音交互设备。然而，语音交互设备可以不必具有模拟人形的三维结构，而是可以采用各种形式。图13是示出根据其他实施方式的智能电话700的外观的图。

智能电话700用作具有作为智能电话的正常功能的语音交互设备。智能电话700包括显示单元710、麦克风711和扬声器712。麦克风111以与交互式机器人100的麦克风111相同的方式起作用。扬声器712以与交互式机器人100的扬声器112相同的方式起作用。此外，智能电话700包括图2所示的系统配置。

应答控制单元240可以在显示单元710上显示角色800，角色800表示例如CG中的机器人。与交互式机器人100类似，角色800具有头部810和身体部分820。当执行点头动作时，应答控制单元240显示前后摆动头部810的动画。

此外，应答控制单元240可以在显示单元710上显示气泡870，以将补白声和应答话语以文本方式通知给用户。在这种情况下，可以停用从扬声器712以声音方式输出补白声和应答话语的功能。

在上述实施方式中，变化概率P被计算为估计值。然而，用于基于接收到的表示韵律的物理特征来估计交互式机器人100是应该等待用户的话语还是交互式机器人100本身应该说话的估计方法不限于使用数值作为估计值。例如，可以基于接收到的表示韵律的物理特征来直接输出下述四个中的一个：“不进行应答”、“发出补白声”、“说出应答话语”和“发出附和声”。每个组可以被视为一个类，并且可以使用诸如深度学习的方法来估计输入的韵律属于哪个类。

在上述实施方式中，交互式机器人100或智能电话700被描述为包括图2或图7所示的系统配置。然而，一些部件可以被布置在外部装置中，并且可以通过通信从外部获得信息。例如，韵律DB 310、补白DB 320、话语DB 330和附和DB 340中的每个可以是作为外部装置而提供的共享数据库。交互式机器人100或智能电话700在必要时使用通信功能来请求数据库所必需的信息。以这种方式，如果要求大容量记录介质的数据库被设置在外部，则可以容易地优化作为语音交互设备的系统配置。

根据如此描述的本发明，明显的是，本发明的实施方式可以以许多方式变化。这些变型不被认为是偏离本发明的精神和范围，并且对于本领域技术人员来说明显的是，所有这样的修改旨在被包括在所附权利要求的范围内。

Claims

1.一种语音交互设备，包括：

输入单元，所述输入单元被配置成输入由用户说出的输入话语；

输出单元，所述输出单元被配置成输出对所述用户说出的输出话语；

分析单元，所述分析单元被配置成分析由所述输入单元输入的输入话语的韵律；

估计单元，所述估计单元被配置成基于所述韵律来估计是等待由所述输入单元输入所述输入话语还是由所述输出单元执行所述输出话语的输出；以及

应答控制单元，所述应答控制单元被配置成：当所述估计单元基于所述韵律不能估计是等待由所述输入单元输入所述输入话语还是由所述输出单元执行所述输出话语的输出时，通过执行补白输出和点头动作中的至少一个来进行应答，所述补白输出是来自所述输出单元的补白的输出，所述补白是与交互内容无关的连接声，并且所述点头动作是前后摆动伪头部的动作。

2.根据权利要求1所述的语音交互设备，其中，

所述估计单元基于由所述分析单元分析的韵律来计算用于估计是等待由所述输入单元输入所述输入话语还是由所述输出单元执行所述输出话语的输出的估计值，以及

当由所述估计单元计算的估计值落入不能估计是等待由所述输入单元输入所述输入话语还是由所述输出单元执行所述输出话语的输出的预定范围内时，所述应答控制单元通过执行所述补白输出和所述点头动作中的至少一个来进行应答。

3.根据权利要求2所述的语音交互设备，其中，当所述估计值落入指定应该执行所述输出话语的输出的概率的预定范围内并且所述估计值小于在所述预定范围内设置的第一阈值时，所述应答控制单元通过执行所述点头动作来进行应答，而当所述估计值大于在所述预定范围内设置的并且大于或等于所述第一阈值的第二阈值时，所述应答控制单元通过执行所述补白输出来进行应答。

4.根据权利要求1至3中任一项所述的语音交互设备，其中，当所述应答控制单元连续地执行所述补白输出而不由所述输出单元执行所述输出话语的输出时，所述估计单元更可能估计到应该执行所述输出话语的输出。

5.根据权利要求1至3中任一项所述的语音交互设备，其中，当在执行所述补白输出时检测到由所述输入单元输入所述输入话语时，所述估计单元更可能估计到正在等待输入所述输入话语。

6.根据权利要求4所述的语音交互设备，其中，当在执行所述补白输出时检测到由所述输入单元输入所述输入话语时，所述估计单元更可能估计到正在等待输入所述输入话语。

7.一种使用语音交互设备的自动交互方法，所述语音交互设备包括被配置成输入由用户说出的输入话语的输入单元以及被配置成输出对所述用户说出的输出话语的输出单元，所述自动交互方法包括：

分析由所述输入单元输入的输入话语的韵律；

基于所述韵律来估计是等待由所述输入单元输入所述输入话语还是由所述输出单元执行所述输出话语的输出；以及

当在进行所述估计时基于所述韵律不能估计是等待由所述输入单元输入所述输入话语还是由所述输出单元执行所述输出话语的输出时，通过执行补白输出和点头动作中的至少一个来进行应答，所述补白输出是来自所述输出单元的补白的输出，所述补白是与交互内容无关的连接声，并且所述点头动作是前后摆动伪头部的动作。