CN110880319A

CN110880319A - 语音交互装置、语音交互装置的控制方法以及存储程序的非暂时性记录介质

Info

Publication number: CN110880319A
Application number: CN201910590909.XA
Authority: CN
Inventors: 古贺光
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-09-06
Filing date: 2019-07-02
Publication date: 2020-03-13
Also published as: US20200082820A1; JP2020042074A

Abstract

本发明涉及语音交互装置、语音交互装置的控制方法以及存储程序的非暂时性记录介质。本发明的语音交互装置包括处理器，其被配置为通过获取来自多个说话者的语音的数据来识别发出所述语音的说话者。所述处理器被配置为当所述说话者为被设置为主交互伙伴的第一说话者时执行第一识别处理和执行处理。所述处理器被配置为在执行与所述第一说话者的所述交互期间获取所述多个说话者中被设置为从交互伙伴的第二说话者的语音时执行第二识别处理和确定处理。所述处理器被配置为当确定所述第二说话者的所述第二话语内容改变所述上下文时，基于所述第二说话者的所述第二话语内容生成改变所述上下文的第二话语句子的数据，并且通过语音输出所述第二话语句子。

Description

语音交互装置、语音交互装置的控制方法以及存储程序的非暂时性记录介质

技术领域

本发明涉及一种语音交互装置、语音交互装置的控制方法以及存储程序的非暂时性记录介质。

背景技术

传统地，已经提出了一种安装在车辆上用于通过语音与车辆乘员交互的语音交互装置。例如，日本专利申请公开号2006-189394(JP2006-189394A)公开了一种技术，其中，反映说话者的喜好的代理图像被显示在监视器上以经由该代理图像与说话者交互。

发明内容

根据日本专利申请公开号2006-189394A(JP2006-189394A)中公开的技术，通过图像识别和语音识别来检测说话者的视线、面部的方向和语音，并且基于这些检测结果，控制与代理图像的交互。然而，利用这种图像识别和语音识别难以准确地知道说话者所在的场景的情况。因此，根据日本专利申请公开号2006-189394A(JP2006-189394A)中公开的技术，存在不能根据场景的情况执行交互的问题。

本发明使得可以执行与说话者的根据场景情况的交互。

本发明的第一方案为一种语音交互装置。所述语音交互装置为处理器，其被配置为通过获取来自多个说话者的语音的数据来识别发出所述语音的说话者。所述处理器被配置为当所述说话者为被设置为主交互伙伴的第一说话者时执行第一识别处理和执行处理。所述第一识别处理从所述第一说话者的语音的数据识别第一话语内容。所述执行处理通过重复根据所述第一说话者的所述第一话语内容生成第一话语句子的数据并且通过语音输出所述第一话语句子的处理来执行与所述第一说话者的交互。所述处理器被配置为：在执行与所述第一说话者的所述交互期间获取所述多个说话者中被设置为从交互伙伴的第二说话者的语音时执行第二识别处理和确定处理。所述第二识别处理从所述第二说话者的所述语音的数据识别第二话语内容。所述确定处理确定所述第二说话者的所述第二话语内容是否改变正在执行的所述交互的上下文。所述处理器被配置为：在满足第一条件时，基于所述第二说话者的所述第二话语内容生成改变所述上下文的第二话语句子的数据，并且通过语音输出所述第二话语句子。所述第一条件为确定所述第二说话者的所述第二话语内容改变所述上下文的条件。

利用上述配置，当第二说话者做出改变正在与第一说话者执行的交互的上下文的请求时，可以基于第二说话者的话语内容来改变正在执行的交互的上下文。

在所述语音交互装置中，所述处理器可以被配置为当满足所述第一条件和第二条件两者时，根据预定请求的内容生成第三话语句子的数据并通过语音输出所述第三话语句子。所述第二条件可以为所述第二说话者的所述第二话语内容指示向所述第一说话者的所述预定请求的条件。

利用上述配置，当第二说话者向第一说话者做出预定请求时，可以生成根据请求内容的第三话语句子的数据，然后通过语音将其输出到第一说话者。

在所述语音交互装置中，所述处理器可以被配置为当满足所述第一条件和第三条件两者时，改变与所述第一说话者的所述交互的主题。所述第三条件可以为所述第二说话者的所述第二话语内容为改变与所述第一说话者的所述交互的所述主题的指令的条件。

利用上述配置，当第二说话者做出改变正在与第一说话者执行的交互的主题的请求时，可以改变正在执行的交互的主题。

在所述语音交互装置中，所述处理器可以被配置为当满足所述第一条件和第四条件两者时，改变通过语音的所述输出的音量。所述第四条件可以为所述第二说话者的所述第二话语内容为改变通过语音的所述输出的所述音量的指令的条件。

利用上述配置，当第二说话者在正与第一说话者执行的交互中做出改变通过语音的输出的音量的请求时，可以改变正在执行的交互中的通过语音的输出的音量。

在所述语音交互装置中，所述处理器可以被配置为当满足所述第一条件和第五条件两者时，改变通过语音的所述输出的定时。所述第五条件可以为所述第二说话者的所述第二话语内容为改变通过语音的所述输出的所述定时的指令的条件。

利用上述配置，当第二说话者在正与第一说话者执行的交互中做出改变通过语音的输出的定时的请求时，可以改变正在执行的交互中的通过语音的输出的定时。

在所述语音交互装置中，所述处理器可以被配置为当满足所述第一条件时从所述第二说话者的所述语音的所述数据识别所述第二说话者的音调，然后根据所述音调通过语音输出第四话语句子的数据。

利用上述配置，通过当第四话语句子的数据通过语音输出时根据第二说话者的音调改变音调，使第一说话者更容易意识到由第二说话者发出的第二话语内容的意图。

本发明的第二方案为一种语音交互装置的控制方法。所述语音交互装置包括处理器。所述控制方法包括：通过处理器通过获取来自多个说话者的语音的数据来识别发出所述语音的说话者；当所述说话者为被设置为主交互伙伴的第一说话者时通过所述处理器执行第一识别处理和执行处理，所述第一识别处理从所述第一说话者的语音的数据识别第一话语内容，所述执行处理通过重复根据所述第一说话者的所述第一话语内容生成第一话语句子的数据并且通过语音输出所述第一话语句子的处理来执行与所述第一说话者的交互；在执行与所述第一说话者的所述交互期间获取所述多个说话者中被设置为从交互伙伴的第二说话者的语音时，通过所述处理器执行第二识别处理和确定处理，所述第二识别处理从所述第二说话者的所述语音的数据识别第二话语内容，所述确定处理确定所述第二说话者的所述第二话语内容是否改变正在执行的所述交互的上下文；以及当确定所述第二说话者的所述第二话语内容改变所述上下文时，通过所述处理器，基于所述第二说话者的所述第二话语内容生成改变所述上下文的第二话语句子的数据，并且通过语音输出所述第二话语句子。

利用上述配置，当第二说话者做出改变正在与第一说话者执行的交互的上下文的请求时，可以基于第二说话者的第二话语内容来改变正在执行的交互的上下文。

本发明的第三方案为一种存储程序的非暂时性记录介质。所述程序使计算机执行识别步骤、执行步骤、确定步骤和语音输出步骤。所述识别步骤为用于通过获取来自多个说话者的语音的数据来识别发出所述语音的说话者的步骤。所述执行步骤为用于当所述说话者为被设置为主交互伙伴的第一说话者时执行第一识别处理和执行处理的步骤。所述第一识别处理从所述第一说话者的语音的数据识别第一话语内容。所述执行处理通过重复根据所述第一说话者的所述第一话语内容生成第一话语句子的数据并且通过语音输出所述第一话语句子的处理来执行与所述第一说话者的交互。所述确定步骤为用于在执行与所述第一说话者的所述交互期间获取所述多个说话者中被设置为从交互伙伴的第二说话者的语音时执行第二识别处理和确定处理的步骤。所述第二识别处理从所述第二说话者的所述语音的数据识别第二话语内容。所述确定处理确定所述第二说话者的所述第二话语内容是否改变正在执行的所述交互的上下文。所述语音输出步骤为用于当确定所述第二说话者的所述第二话语内容改变所述上下文时，基于所述第二说话者的所述第二话语内容生成改变所述上下文的第二话语句子的数据，并且通过语音输出所述第二话语句子的步骤。

利用上述配置，通过在执行与第一说话者的交互期间接受来自第二说话者的请求，可以根据第二说话者的意图来改变正在执行的交互的上下文。因此，可以执行与说话者的根据场景情况的交互。

附图说明

以下将参考所附附图来描述本发明的示例性实施例的特征、优点以及技术和工业意义，其中相同的附图标记指代相同的元件，并且其中：

图1为根据本发明的实施例的语音交互装置的功能框图；

图2为示出由根据本发明的实施例的语音交互装置所执行的语音交互控制方法的流程的流程图；

图3为示出在通过根据本发明实施例的语音交互装置执行语音交互控制方法期间识别说话者时说话者与代理之间的交互的示例的图示；

图4为示出在通过根据本发明实施例的语音交互装置执行语音交互控制方法期间使用的交互内容的示例的图示；

图5为示出在通过根据本发明实施例的语音交互装置执行语音交互控制方法期间使用的根据第一说话者的喜好的交互内容的示例的图示；

图6为示出在通过根据本发明实施例的语音交互装置执行语音交互控制方法期间当第二说话者的介入内容为改变交互内容的指令时的介入控制的过程的流程图；

图7为示出在通过根据本发明实施例的语音交互装置执行语音交互控制方法期间当第二说话者的介入内容为改变交互内容的指令时代理与各个说话者之间的交互的示例的图示；

图8为示出在通过根据本发明的实施例的语音交互装置执行语音交互控制方法期间当第二说话者的介入内容为改变交互内容的音量的指令时的介入控制的过程的流程图；

图9为示出在通过根据本发明的实施例的语音交互装置执行语音交互控制方法期间当第二说话者的介入内容为改变交互内容的音量的指令时代理与第二说话者之间的交互的示例的图示；

图10为示出在通过根据本发明的实施例的语音交互装置执行语音交互控制方法期间当第二说话者的介入内容为改变交互内容中的说话定时的指令时的介入控制的过程的流程图；

图11为示出在通过根据本发明的实施例的语音交互装置执行语音交互控制方法期间当第二说话者的介入内容为改变交互内容中的说话定时的指令时代理与第二说话者之间的交互的示例的图示；

图12为示出在通过根据本发明的实施例的语音交互装置执行语音交互控制方法期间当第二说话者的介入内容为争吵调停时的介入控制的过程的流程图；

图13为示出在通过根据本发明的实施例的语音交互装置执行语音交互控制方法期间当第二说话者的介入内容为争吵调停时代理与各个说话者之间的交互的示例的图示；

图14为示出在通过根据本发明的实施例的语音交互装置执行语音交互控制方法期间当第二说话者的介入内容为争吵调停时代理与各个说话者之间的交互的示例的图示；以及

图15为示出在通过根据本发明的实施例的语音交互装置执行语音交互控制方法期间当第二说话者的介入内容为争吵调停时代理与各个说话者之间的交互的示例的图示。

具体实施方式

以下将参考附图来描述根据本发明的实施例的语音交互装置、语音交互装置的控制方法以及存储程序的非暂时性记录介质。注意，本发明不限于下面描述的实施例。另外，实施例中描述的部件包括本领域技术人员可以替换或容易替换的部件或基本等同的部件。

根据该实施例的语音交互装置是安装在例如车辆中用于与车辆中的多个说话者(用户)交互的装置。在一个方案中，语音交互装置内置在车辆中。在这种情况下，语音交互装置通过设置在车辆中的麦克风、扬声器或监视器与多个说话者交互。在另一个方案中，语音交互装置被配置为与车辆分离的小型机器人。在这种情况下，语音交互装置通过设置在机器人中的麦克风、扬声器或监视器与多个说话者交互。

在该实施例中，执行与多个说话者的交互以实现语音交互装置的功能的拟人主体被定义为“代理”。例如，当语音交互装置内置在车辆中时，代理的拟人图像(图像数据)显示在监视器上。可以根据说话者的喜好来选择该代理的图像，诸如人、动物、机器人或动画人物。当语音交互装置被配置为小型机器人时，机器人本身充当代理。

在该实施例中，假设家庭成员在车辆中的场景。在这个场景中，假设三个说话者与语音交互装置交互：位于驾驶员座位的“驾驶员(例如，父亲)”，位于副驾驶座位的非儿童“同伴乘客(例如，母亲)”，以及位于后座的“儿童”。

另外，假设语音交互装置主要与上述三种类型的乘员中的儿童交互。换句话说，语音交互装置不与驾驶员交互而是与儿童交互以减小驾驶期间驾驶员的负担，从而提供驾驶员可专注于驾驶的环境。因此，由语音交互装置执行的交互内容(诸如“单词接龙、问答游戏、歌曲、有趣的故事、可怕的故事”)主要针对儿童。在该实施例中，在多个说话者中，语音交互装置的主交互伙伴(儿童)被定义为“第一说话者(第一用户)”，并且语音交互装置的次要伙伴(驾驶员，乘客)被定义为“第二说话者(第二用户)”。

如图1所示，语音交互装置1包括控制单元10、存储单元20、麦克风30和扬声器40。此外，语音交互装置1经由诸如控制器区域网络(CAN)的车载网络连接到无线通信装置(例如，数据通信模块(DCM))2和导航装置3，使得语音交互装置1可以与它们通信。

无线通信装置2是用于与外部服务器4通信的通信单元。无线通信装置2和服务器4例如经由无线网络连接。导航装置3包括显示单元，例如监视器，以及接收来自GPS卫星的信号的GPS接收器。导航装置3基于由GPS接收单元获取的关于当前位置的信息，通过在显示单元上显示车辆周围的地图信息和到目的地的路线信息来执行导航。服务器4通过经由无线通信装置2根据需要与车辆交换信息来执行各种类型的信息处理。

控制单元(处理器)10，更具体地由诸如中央处理单元(CPU)的算术处理单元配置，处理从麦克风30接收的语音数据，并将生成的话语句子数据发送到扬声器40以进行输出。控制单元10执行计算机程序以用作说话者识别单元11、交互内容控制单元12和介入控制单元13。

说话者识别单元11从麦克风30获取车辆中的多个说话者的语音数据，并且使用声纹验证，识别已发出语音的说话者。更具体地说，说话者识别单元11生成询问车辆中的多个说话者的名字的话语句子数据(在下面的描述中，简称为“话语句子”)，或询问谁是驾驶员及谁是乘客的话语句子。然后，说话者识别单元11通过扬声器40利用语音输出所生成的话语句子(例如，参见稍后将描述的图3中的(1-1)和(1-12))。

接下来，说话者识别单元11从麦克风30获取指示来自多个说话者的响应的语音数据，并识别所获取的话语内容。之后，说话者识别单元11将指示说话者的语音、名字和属性之间的关联的信息(以下称为“说话者数据”)存储在稍后将描述的说话者信息存储单元21中。当识别说话者时，说话者识别单元11可以询问例如每个说话者的喜好和年龄，并且可以将所获取的数据添加到各个说话者的说话者数据。

上述“说话者的属性”是指示各个说话者属于哪个类别的说话者(第一说话者(儿童)或第二说话者(驾驶员，乘客))的信息。可以通过询问车辆中的多个说话者谁是驾驶员及谁是乘客(即，第二说话者)，然后通过接收来自他们的回复来识别每个说话者属于哪个类别的说话者(第一说话者或第二说话者)。

在交互内容由交互内容控制单元12启动之前，由说话者识别单元11识别说话者(参见后面将描述的图2)。此外，当说话者识别单元11识别说话者时，代理发出的话语句子的至少一部分(例如，图3中(1-3)所示的“○○，你喜欢什么？”)预先存储在将在后面描述的话语句子存储单元23中。说话者识别单元11从话语句子存储单元23中读取识别说话者所需的话语句子的一部分，并将已读取的话语句子的一部分与交互伙伴的名字(例如图3中的“晴也”)结合起来生成话语句子(例如，图3中的(1-3))。然后，说话者识别单元11通过扬声器40利用语音输出生成的话语句子。

交互内容控制单元12与已被设置为主交互伙伴的第一说话者(儿童)交互。更具体地，当由说话者识别单元11识别的说话者是第一说话者时，交互内容控制单元12从经由麦克风30获取的第一说话者的语音数据识别出话语内容。然后，交互内容控制单元12通过重复根据第一说话者的话语内容生成话语句子的数据并且通过扬声器40利用语音输出所生成的话语句子的处理来执行与第一说话者的交互。

在该实施例中，一组与某个主题(题材)相关的话语句子，即主动发布给第一说话者的话语句子(例如，将在后面描述的图4中的(2-1))以及对应于来自第一说话者的响应的话语句子的候选(例如，图4中的(2-4))被定义为“交互内容”。

为交互内容设置多个主题，例如“单词接龙、问答游戏、歌曲、有趣的故事、可怕的故事”，并且将各自具有题材的多条交互内容预先存储在将在后面描述的交互内容存储单元22中。交互内容控制单元12从交互内容存储单元22读取交互内容，并通过选择必要的话语句子或将交互伙伴的名字与交互内容组合来产生话语句子。之后，交互内容控制单元12通过语音来输出所选择或生成的话语句子。

当第二说话者做出改变与第一说话者的交互的上下文的请求时，介入控制单元13基于第二说话者的话语内容改变正在执行的交互的上下文。更具体地，介入控制单元13在执行与第一说话者的交互期间经由麦克风30获取多个说话者中被设置为从交互伙伴的第二说话者的语音。接下来，介入控制单元13从第二说话者的语音数据识别出话语内容，并确定第二说话者的话语内容是否将改变正在执行的交互的上下文。当确定第二说话者的话语内容将改变上下文时，介入控制单元13基于第二说话者的话语内容生成改变上下文的话语句子数据，然后，通过扬声器40利用语音输出所生成的话语句子。

在该实施例中，第二说话者做出的改变与第一说话者的交互的上下文的请求被定义为如上所述的“介入”。换句话说，第二说话者的介入意味着从知道场景中(车辆内部)的情况的第二说话者提供信息。当第二说话者想要(1)将交互内容改变为另一条交互内容，(2)改变交互内容的音量，(3)改变交互内容的说话定时，以及(4)向第一说话者做出预定请求时，在执行与第一说话者的交互期间执行第二说话者的介入。下面将描述在上述各种情况下由介入控制单元13执行的控制的概要(在下面的描述中，该控制被称为“介入控制”)。

当第二说话者想要将交互内容改变为另一条交互内容时，介入控制单元13执行第一介入控制。当在执行与第一说话者的交互期间获取的第二说话者的话语内容是改变正在执行的交互的上下文时，以及当第二说话者的话语内容是改变交互内容的指令时(例如，将在后面描述的图7中的(4-1))，介入控制单元13将交互内容改变为另一条交互内容。更具体地，“改变交互内容”表示与第一说话者的交互的主题改变。

由代理在第一介入控制时发出的话语句子的至少一部分被预先存储在稍后将描述的话语句子存储单元23中。例如，介入控制单元13从话语句子存储单元23中读取在第一介入控制时所需的话语句子的一部分(例如，将在后面描述的图7中的(4-2)所指示的“好吧，让我们玩○○喜欢的○○，可以吗？”)。然后，介入控制单元13将已经读取的话语句子的一部分与交互伙伴的名字(例如，图7中的“莉娅”)以及交互伙伴的话语内容(例如，图7中的“危险生物问答游戏”)组合以生成话语句子(例如，图7中的(4-2))。之后，介入控制单元13通过扬声器40利用语音输出所生成的话语句子。

当第二说话者想要改变交互内容的音量时，介入控制单元13执行第二介入控制。当在执行与第一说话者的交互期间获取的第二说话者的话语内容是改变正在执行的交互的上下文时，以及当第二说话者的话语内容是改变交互内容的音量的指令时(例如，将在后面描述的图9中的(5-1))，介入控制单元13改变交互内容的音量。更具体地，“改变交互内容的音量”表示扬声器40输出的语音的音量改变，即，扬声器40的音量改变。

由代理在第二介入控制时发出的话语句子的至少一部分被预先存储在稍后将描述的话语句子存储单元23中。介入控制单元13从话语句子存储单元23中读取在第二介入控制时所需的话语句子的一部分(例如，稍后将描述的图9中的(5-2)所示的“好的。你喜欢这个音量等级吗，○○？”)。然后，介入控制单元13将已经读取的话语句子的一部分与交互伙伴的名字(例如，图9中的“爸爸”)组合以生成话语句子(例如，图9中的(5-2))。之后，介入控制单元13通过扬声器40利用语音输出所生成的话语句子。

当第二说话者想要改变交互内容的说话定时时，介入控制单元13执行第三介入控制。当在执行与第一说话者的交互期间获取的第二说话者的话语内容是改变正在执行的交互的上下文时，以及当第二说话者的话语内容是改变交互内容的说话定时的指令时(例如，稍后将描述的图11中的(6-1))，介入控制单元13改变说话定时。“改变交互内容的说话定时”表示扬声器40输出语音的定时改变。

由代理在第三介入控制时发出的话语句子的至少一部分被预先存储在稍后将描述的话语句子存储单元23中。介入控制单元13从话语句子存储单元23中读取在第三介入控制时所需的话语句子的一部分(例如，稍后将描述的图11中的(6-2)所示的“好的。○○。我不会在○○附近说话”)。然后，介入控制单元13将已经读取的话语句子的一部分与交互伙伴的名字(例如，图11中的“爸爸”)以及交互伙伴的话语内容(例如，图11中的“交叉路口”)组合，以生成话语句子(例如，图11中的(6-2))。之后，介入控制单元13通过扬声器40利用语音输出所生成的话语句子。

当第二说话者想要向第一说话者做出预定请求时，介入控制单元13执行第四介入控制。当在执行与第一说话者的交互期间获取的第二说话者的话语内容是改变正在执行的交互的上下文时，以及当第二说话者的话语内容要对第一说话者做出预定请求时(例如，稍后将描述的图13中的(7-1))，介入控制单元13根据要做出的请求的内容生成话语句子数据，并通过语音输出所生成的话语句子数据。“当向第一说话者做出预定请求时”是，例如，当需要调停作为第一说话者的儿童之间的争吵时或当需要安抚心情不好的儿童时。

由代理在第四介入控制时发出的话语句子的至少一部分被预先存储在稍后将描述的话语句子存储单元23中。例如，介入控制单元13从话语句子存储单元23中读取在第四介入控制时所需的话语句子的一部分(例如，稍后将描述的图13中的(7-2)所示的“○○，你为什么哭？”)。然后，介入控制单元13将已经读取的话语句子的一部分与交互伙伴的名字(例如，图13中的“莉娅”)组合在一起以生成话语句子(例如，图13中的(7-2))。之后，介入控制单元13通过扬声器40利用语音输出所生成的话语句子。

存储单元20例如由硬盘驱动器(HDD)、只读存储器(ROM)和随机存取存储器(RAM)配置，包括说话者存储单元21、交互内容存储单元22和话语句子存储单元23。

说话者存储单元21存储由说话者识别单元11生成的说话者数据。交互内容存储单元22预先存储要由交互内容控制单元12使用的多条交互内容。例如，交互内容存储单元22存储具有多个作为第一说话者的儿童感兴趣的主题(“单词接龙、问答游戏、歌曲、有趣的故事、可怕的故事”等)的交互内容。话语句子存储单元23预先存储要由说话者识别单元11、交互内容控制单元12和介入控制单元13生成的话语句子的一部分。

麦克风30采集由多个说话者(第一说话者：儿童，第二说话者：驾驶员，乘客)产生的语音并生成语音数据。之后，麦克风30将所生成的语音数据输出到控制单元10的各个单元。扬声器40接收由控制单元10的各个单元生成的话语句子数据。之后，扬声器40将接收到的话语句子数据通过语音输出到多个说话者(第一说话者：儿童，第二说话者：驾驶员，乘客)。

当语音交互装置1内置在车辆中时，麦克风30和扬声器40设置在车辆中；当语音交互装置1由小型机器人配置时，麦克风30和扬声器40设置在机器人中。

下面将参考图2至图5描述由语音交互装置1执行的语音交互控制方法。

当语音交互装置1的代理被激活时(开始)，说话者识别单元11执行交互以识别车辆中的多个说话者(第一说话者和第二说话者)并且登记所识别的说话者(步骤S1)。

在步骤S1中，说话者识别单元11与作为第一说话者的两个儿童A和B交互以识别他们的名字(晴也，莉娅)并将识别的名字作为说话者数据存储在说话者存储单元21中，例如，如图3中的(1-1)至(1-9)所示。在该步骤中，如图3中的(1-12)至(1-14)所示，说话者识别单元11还与作为第二说话者的驾驶员(爸爸)交互以识别驾驶员并将关于他的信息作为说话者数据存储在说话者存储单元21中。

在步骤S1中，说话者识别单元11可以收集关于儿童A和B的名字以及喜好的信息，如图3中的(1-3)至(1-5)以及(1-7)至(1-9)所示。说话者识别单元11可以将收集的喜好信息包括在说话者数据中以存储在说话者存储单元21中。如稍后将描述的(参见稍后将描述的图5)，当交互内容控制单元12选择交互内容时，将参考在该步骤中收集的关于喜好的信息。

接下来，交互内容控制单元12开始针对儿童A和B的交互内容(步骤S2)。在该步骤中，交互内容控制单元12从交互内容存储单元22读取交互内容，例如图4中所示的“单词接龙”或图5中所示的“问答游戏”，并执行交互。图5示出了交互内容控制单元12从存储在交互内容存储单元22中的交互内容中选择与在说话者识别期间识别的说话者(儿童B：莉娅)的喜好相匹配的交互内容(危险生物问答游戏)的示例。

接下来，介入控制单元13确定第二说话者是否在执行与第一说话者的交互期间做出改变交互的上下文的请求(步骤S3)。当在步骤S3中确定做出了这样的请求时(步骤S3中的是)，介入控制单元13从第二说话者的语音数据中获取请求的内容(步骤S4)并根据请求的内容执行控制(步骤S5)。当在步骤S3中确定没有做出这样的请求时(步骤S3中的否)，介入控制单元13的处理进行到步骤S6。

在步骤S5之后，交互内容控制单元12基于第二说话者的语音数据确定是否由第二说话者发出终止交互内容的指令(步骤S6)。当在步骤S6中确定第二说话者发出终止交互内容的指令时(步骤S6中的是)，交互内容控制单元12终止交互内容(步骤S7)。由此，语音交互控制终止。当在步骤S6中确定第二说话者没有发出终止交互内容的指令时(步骤S6中的否)，交互内容控制单元12的处理返回到步骤S3。

下面将参考图6至图15描述图2中的步骤S5中的介入控制的示例。下面将描述由介入控制单元13在步骤S5中执行的第一至第四介入控制的示例。

下面描述第一介入控制。例如，当执行与坐在后座的儿童的交互内容(例如，“单词接龙”)的交互时，当语音交互装置1仅使用同一主题的交互内容执行交互时，儿童可能感到无聊。然而，语音交互装置1无法知道这种场景的情况。为了解决该问题，介入控制单元13执行第一介入控制。在第一介入控制中，介入控制单元13接受来自知道场景情况的驾驶员(或乘客)的介入，以改变交互内容，从而避免儿童对交互内容感到厌倦的情况。

在这种情况下，如图6所示，介入控制单元13基于在上述步骤S4中获取的请求的内容，确定是否从第二说话者接收到改变交互内容的指令(步骤S51)。当在步骤S51中确定从第二说话者接收到改变交互内容的指令时(步骤S51中的是)，介入控制单元13基于第一说话者的话语内容确定第一说话者是否接受了交互内容的改变(步骤S52)。当在步骤S51中确定没有从第二说话者接收到改变交互内容的指令时(步骤S51中的否)，介入控制单元13的处理返回到步骤S51。

当在步骤S52中确定第一说话者已接受交互内容的改变时(步骤S52中的是)，介入控制单元13根据改变指令将交互内容改变为另一条交互内容(步骤S53)。然后，终止第一介入控制。当在步骤S52中确定第一说话者尚未接受交互内容的改变时(步骤S52中的否)，介入控制单元13终止第一介入控制。

例如，在第一介入控制中，执行诸如图7中所示的交互之类的交互。首先，驾驶员(爸爸)指示代理将交互内容改变为儿童(莉娅)喜欢的交互内容(危险生物问答游戏)(图7中的(4-1))。响应该指示，代理要求两个儿童(莉娅，晴也)接受交互内容的改变(图7中的(4-2))，并且当两个儿童(莉娅和晴也)接受了改变时(图7中的(4-3)，(4-4))，代理改变交互内容。在图7所示的示例中，两个儿童都接受了交互内容的改变。当两个儿童没有接受改变时，代理可以提议改变到另一条交互内容。

下面描述第二介入控制。例如，当语音交互装置1执行与第一说话者的交互的同时交互内容的音量(扬声器40的音量)太高时，驾驶员可能无法专注于驾驶，结果是驾驶可能变得不稳定。然而，语音交互装置1无法知道场景中的这种情况。为了解决该问题，介入控制单元13执行第二介入控制。在第二介入控制中，介入控制单元13接受来自知道场景情况的驾驶员(或乘客)的介入，以改变交互内容的音量，从而防止驾驶员的驾驶变得不稳定。

在这种情况下，如图8所示，介入控制单元13基于在上述步骤S4中获取的请求的内容，确定是否从第二说话者接收到改变交互内容的音量的指令(步骤S54)。当在步骤S54中确定从第二说话者接收到改变交互内容的音量的指令时(步骤S54中的是)，介入控制单元13根据改变指令改变扬声器40的音量(步骤S55)。当在步骤S54中确定没有从第二说话者接收到改变交互内容的音量的指令时(步骤S54中的否)，介入控制单元13的处理返回到步骤S54。

接下来，介入控制单元13确定第二说话者是否已接受交互内容的音量的改变(步骤S56)。当在步骤S56中确定第二说话者已经接受交互内容的音量的改变时(步骤S56中的是)，介入控制单元13终止第二介入控制。当在步骤S56中确定第二说话者尚未接受交互内容的音量的改变时(步骤S56中的否)，介入控制单元13的处理返回到步骤S55。

例如，在第二介入控制中，执行诸如图9中所示的交互之类的交互。首先，驾驶员(爸爸)指示代理降低交互内容的音量(图9中的(5-1))。响应于该指令，代理将交互内容的音量降低预定量，然后要求驾驶员接受(图9中的(5-2))。

下面描述第三介入控制。例如，当在需要小心驾驶的情况下(例如，在交叉路口或在高速公路的入口/出口处)听到语音交互装置1和第一说话者之间的交互的声音时，驾驶员可能无法专注于驾驶，结果是驾驶可能变得不稳定。然而，语音交互装置1无法知道这种场景的情况。为了解决该问题，介入控制单元13执行第三介入控制。在第三介入控制中，介入控制单元13接受来自知道场景情况的驾驶员(或乘客)的介入，以改变交互内容的说话定时，从而防止驾驶员的驾驶变得不稳定。

在这种情况下，如图10所示，介入控制单元13基于在上述步骤S4中获取的请求的内容，确定是否从第二说话者接收到改变说话定时的指令(步骤S57)。当在步骤S57中确定从第二说话者接收到改变说话定时的指令时(步骤S57中的是)，介入控制单元13改变交互内容的说话定时(步骤S58)并终止第三介入控制。当在步骤S57中确定没有从第二说话者接收到改变说话定时的指令时(步骤S57中的否)，介入控制单元13的处理返回到步骤S57。

在第三介入控制中，例如，执行如图11中所示的交互。首先，驾驶员(爸爸)指示代理不要在交叉路口附近说话(图11中的(6-1))。响应于该指令，代理改变说话定时，使得代理不会在交叉路口附近说话(图11中的(6-2))。注意，交叉路口的位置可以由导航装置3识别。

下面描述第四介入控制。例如，在某些情况下，儿童可能会在驾驶期间开始争吵。在这种情况下，驾驶员可能无法专注于驾驶，结果是驾驶可能变得不稳定。然而，语音交互装置1无法知道这种场景的情况。为了解决该问题，介入控制单元13执行第四介入控制。在第四介入控制中，介入控制单元13接受来自知道场景情况的驾驶员(或乘客)的介入，以调停儿童之间的争吵，从而防止驾驶员的驾驶变得不稳定。

在这种情况下，如图12所示，介入控制单元13基于在上述步骤S4中获取的请求的内容，根据第二说话者的请求的内容生成话语句子(步骤S59)。之后，介入控制单元13将所生成的话语句子输出(通过语音输出)到话语句子所针对的第一说话者(步骤S60)。

在第四介入控制中，例如，执行如图13中所示的交互。首先，驾驶员(爸爸)通知代理儿童之间发生了争吵(图13中的(7-1))。响应于该信息，代理中断交互内容并调停两个儿童(莉娅和晴也)之间的争吵(图13中的(7-2)至(7-6))。然后，代理建议改变到与儿童(莉娅)的喜好相匹配的另一条交互内容(危险生物问答游戏)(图13中的(7-2)至(7-7))。

在第四介入控制中，例如，可以执行如图14中所示的交互。首先，驾驶员(爸爸)通知代理儿童之间发生了争吵(图14中的(8-1))。响应于该信息，代理中断交互内容并且以比平时更响亮的语音对两个儿童(莉娅和晴也)说话以调停争吵(图14中的(8-2)至(8-4))。然后，代理建议改变到另一条交互内容(单词接龙)(图14中的(8-4)和(8-5))。

在第四介入控制中，例如，可以执行如图15中所示的交互。首先，驾驶员(爸爸)通知代理儿童之间发生了争吵(图15中的(9-1))。响应该信息，代理中断交互内容，并且以比平时更响亮的语音向两个儿童(莉娅，晴也)建议改变到另一条交互内容(可怕的故事)(图15中的(9-2))。结果，两名儿童的兴趣从争吵转移到可怕的故事而不再有更多的争吵。

注意，在第四介入控制中，介入控制单元13可以从第二说话者(驾驶员和乘客)的语音数据识别出第二说话者的音调，并且通过语音输出与识别出的音调相符的生成的话语句子数据。上述“音调”包括语音的音量、语调和速度。在这种情况下，例如，当驾驶员(爸爸)以叱责的音调或响亮的语音通知代理儿童之间发生了争吵时，例如，在上所述图13至图15中所示，介入控制单元13使代理通过语音将话语句子以叱责的音调或响亮的语音输出给儿童。

以这种方式，通过当通过语音输出话语句子时根据第二说话者的音调改变音调，第一说话者变得更容易意识到由第二说话者发出的话语内容的意图。因此，驾驶员的意图更有可能被反映出来，例如，当代理人调停儿童的争吵或安抚心情不好的儿童时。这意味着可以向儿童做出有效的请求。例如，有可能更快地解决儿童的争吵或者让儿童更快地回到好心情。

如上所述，根据语音交互装置1和使用本实施例中的装置的语音交互方法，可以在执行与第一说话者(儿童)的交互期间从第二说话者(驾驶员，乘客)接受请求。通过这样做，由于可以根据第二说话者的意图改变正在执行的交互的上下文，因此可以根据场景的情况执行与说话者的交互。

另外，根据语音交互装置1和使用该装置的语音交互方法，当发生无法通过感测识别的情况时(例如，车辆中，儿童之间发生争吵时，或者儿童变得心情不好时)，可以接受来自驾驶员(或乘客)的介入。以这种方式接受介入使得可以调停儿童之间的争吵或安抚儿童，从而避免驾驶员不能专注于驾驶的情况并防止驾驶员的驾驶变得不稳定。

根据该实施例的语音交互程序使计算机用作上述控制单元10的每个部件(每个单元)。语音交互程序可以存储和分布在计算机可读记录介质中，例如硬盘、软盘或CD-ROM，或者可以分布在网络上。

虽然已经使用实现本发明的实施例描述了语音交互装置、语音交互装置的控制方法和存储程序的非暂时性记录介质，但是本发明的精神不限于这些描述，应基于权利要求的描述广泛地解释。此外，应该理解基于这些描述的各种变化和修改包括在本发明的精神内。

例如，尽管上述图1示出了语音交互装置1的所有部件都安装在车辆上的示例，语音交互装置1的一部分可以包括在服务器4中。例如，通过将语音交互装置1的除了麦克风30和扬声器40之外的所有部件包括在服务器4中，可以通过无线通信装置2与服务器4通信来执行说话者识别、交互内容控制和介入控制。

尽管在上述图3中仅将驾驶员识别为第二说话者，乘客也可以与驾驶员一起被识别为第二说话者。

在图7、图9、图11和图13至图15的示例中，驾驶员在第一至第四介入控制中做出介入请求。作为替代，乘客可以在第一至第四介入控制中做出介入请求。

语音交互装置1的说话者识别单元11可以通过在说话者识别时询问说话者的年龄来区分儿童(第一说话者)和成人(第二说话者)。

尽管在上述实施例中假设语音交互装置1安装在车辆上，但是可以在家中设置语音交互装置1以与家中的家庭成员交互。

Claims

1.一种语音交互装置，其特征在于包括

处理器，其被配置为通过获取来自多个说话者的语音的数据来识别发出所述语音的说话者，

所述处理器被配置为当所述说话者为被设置为主交互伙伴的第一说话者时执行第一识别处理和执行处理，所述第一识别处理从所述第一说话者的语音的数据识别第一话语内容，所述执行处理通过重复根据所述第一说话者的所述第一话语内容生成第一话语句子的数据并且通过语音输出所述第一话语句子的处理来执行与所述第一说话者的交互，

所述处理器被配置为在执行与所述第一说话者的所述交互期间获取所述多个说话者中被设置为从交互伙伴的第二说话者的语音时执行第二识别处理和确定处理，所述第二识别处理从所述第二说话者的所述语音的数据识别第二话语内容，所述确定处理确定所述第二说话者的所述第二话语内容是否改变正在执行的所述交互的上下文，以及

所述处理器被配置为在满足第一条件时，基于所述第二说话者的所述第二话语内容生成改变所述上下文的第二话语句子的数据，并且通过语音输出所述第二话语句子，所述第一条件为确定所述第二说话者的所述第二话语内容改变所述上下文的条件。

2.根据权利要求1所述的语音交互装置，其特征在于

所述处理器被配置为当满足所述第一条件和第二条件两者时，根据预定请求的内容生成第三话语句子的数据并通过语音输出所述第三话语句子，所述第二条件为所述第二说话者的所述第二话语内容指示向所述第一说话者的所述预定请求的条件。

3.根据权利要求1或2所述的语音交互装置，其特征在于

所述处理器被配置为当满足所述第一条件和第三条件两者时，改变与所述第一说话者的所述交互的主题，所述第三条件为所述第二说话者的所述第二话语内容为改变与所述第一说话者的所述交互的所述主题的指令的条件。

4.根据权利要求1至3中任一项所述的语音交互装置，其特征在于

所述处理器被配置为当满足所述第一条件和第四条件两者时，改变通过语音的所述输出的音量，所述第四条件为所述第二说话者的所述第二话语内容为改变通过语音的所述输出的所述音量的指令的条件。

5.根据权利要求1至4中任一项所述的语音交互装置，其特征在于

所述处理器被配置为当满足所述第一条件和第五条件两者时，改变通过语音的所述输出的定时，所述第五条件为所述第二说话者的所述第二话语内容为改变通过语音的所述输出的所述定时的指令的条件。

6.根据权利要求1至5中任一项所述的语音交互装置，其特征在于

所述处理器被配置为当满足所述第一条件时从所述第二说话者的所述语音的所述数据识别所述第二说话者的音调，然后根据所述音调通过语音输出第四话语句子的数据。

7.一种语音交互装置的控制方法，所述语音交互装置包括处理器，所述控制方法的特征在于包括：

通过所述处理器，通过获取来自多个说话者的语音的数据来识别发出所述语音的说话者；

当所述说话者为被设置为主交互伙伴的第一说话者时，通过所述处理器执行第一识别处理和执行处理，所述第一识别处理从所述第一说话者的语音的数据识别第一话语内容，所述执行处理通过重复根据所述第一说话者的所述第一话语内容生成第一话语句子的数据并且通过语音输出所述第一话语句子的处理来执行与所述第一说话者的交互；

在执行与所述第一说话者的所述交互期间获取所述多个说话者中被设置为从交互伙伴的第二说话者的语音时，通过所述处理器执行第二识别处理和确定处理，所述第二识别处理从所述第二说话者的所述语音的数据识别第二话语内容，所述确定处理确定所述第二说话者的所述第二话语内容是否改变正在执行的所述交互的上下文；以及

当确定所述第二说话者的所述第二话语内容改变所述上下文时，通过所述处理器基于所述第二说话者的所述第二话语内容生成改变所述上下文的第二话语句子的数据，并且通过语音输出所述第二话语句子。

8.一种存储程序的非暂时性记录介质，其特征在于

所述程序使计算机执行识别步骤、执行步骤、确定步骤和语音输出步骤，

所述识别步骤为用于通过获取来自多个说话者的语音的数据来识别发出所述语音的说话者的步骤，

所述执行步骤为用于当所述说话者为被设置为主交互伙伴的第一说话者时执行第一识别处理和执行处理的步骤，所述第一识别处理从所述第一说话者的语音的数据识别第一话语内容，所述执行处理通过重复根据所述第一说话者的所述第一话语内容生成第一话语句子的数据并且通过语音输出所述第一话语句子的处理来执行与所述第一说话者的交互，

所述确定步骤为用于在执行与所述第一说话者的所述交互期间获取所述多个说话者中被设置为从交互伙伴的第二说话者的语音时执行第二识别处理和确定处理的步骤，所述第二识别处理从所述第二说话者的所述语音的数据识别第二话语内容，所述确定处理确定所述第二说话者的所述第二话语内容是否改变正在执行的所述交互的上下文，以及

所述语音输出步骤为用于当确定所述第二说话者的所述第二话语内容改变所述上下文时，基于所述第二说话者的所述第二话语内容生成改变所述上下文的第二话语句子的数据，并且通过语音输出所述第二话语句子的步骤。