CN110495190B

CN110495190B - 语音提供设备、语音提供方法和程序记录介质

Info

Publication number: CN110495190B
Application number: CN201880024405.5A
Authority: CN
Inventors: 京谷实穂; 有田光希; 大岛生郎; 内田弘树; 杉村浩晃; 多田幸生
Original assignee: Fujitsu Ltd; Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-04-10
Filing date: 2018-03-22
Publication date: 2021-08-17
Anticipated expiration: 2038-03-22
Also published as: EP3611941A4; CN110495190A; EP3611941A1; US20200037098A1; WO2018190099A1; JP6884854B2; JPWO2018190099A1; US10820132B2

Abstract

一种语音提供系统，其设置在诸如游乐园、游乐设施、娱乐设施、公共设施、商业设施或活动场地设施的设施的区域中。在该区域中，与用户进行对话和通信的虚拟讲话者被定义在任意位置。本文中的虚拟讲话者是指被设计为与人类对话的讲话者的概念。例如，如果该语音提供系统被设置在娱乐设施的区域中，则该虚拟讲话者是象征娱乐设施的吉祥物或角色。在虚拟讲话者存在于用户的预定范围内的情况下，虚拟讲话者的语音被提供给用户。通过这种方式，使得用户能够感觉到好像讲话者就在附近，并且与该讲话者对话。

Description

语音提供设备、语音提供方法和程序记录介质

技术领域

本发明涉及一种用于向用户提供语音的技术。

背景技术

已知的是一种向用户提供与用户的位置对应的信息的技术。例如，专利文献1公开了当分发设施或商店的广告时，根据设施或商店与用户携带的移动终端之间的距离来切换待分发的信息。

引用列表

专利文献

专利文献1：日本未审查专利申请公开No.2001-238266。

发明内容

技术问题

本发明的目的不是仅以传统方式提供信息，而是通过例如虚拟讲话者(诸如娱乐设施的角色)与用户之间的语音来实现通信。

解决问题的方案

为了解决上述问题，本发明提供了一种语音提供设备，其包括：用于获得用户的位置的获得装置；以及提供装置，在由获得装置获得的位置与虚拟讲话者的位置处于预定关系的情况下，所述提供装置执行向用户提供使得虚拟讲话者利用根据用户的内容与用户对话的语音的处理。

提供装置可以执行如下处理：其用于根据由获得装置获得的位置与虚拟讲话者的位置之间的关系，与所述语音一起提供用于执行语音的声音发出处理的声音场。

在由获得装置获得的位置和虚拟讲话者的位置处于预定范围内的情况下，提供装置可以执行用于提供语音的处理。

在由获得装置获得的位置和虚拟讲话者的位置处于预定距离的范围内并且虚拟讲话者的位置在用户面对的方向上的情况下，提供装置可以执行用于提供语音的处理。

提供装置可以根据由获得装置获得的位置与虚拟讲话者的位置之间的距离来改变语音的内容。

提供装置可以执行如下处理：用于提供使虚拟讲话者利用根据用户的属性、行为、生物信息或感受的内容与用户对话的语音。

可以提供用于更新虚拟讲话者的位置的更新装置。

更新装置可以根据每个区域的拥塞状态来更新虚拟讲话者的位置。

更新装置可以根据每个区域中将要提供的服务的状态来更新虚拟讲话者的位置。

更新装置可以根据正在与虚拟讲话者对话的用户的移动状态来更新虚拟讲话者的位置。

另外，本发明提供了一种语音提供方法，其包括：获得步骤，用于获得用户的位置；以及提供步骤，用于在所获得的位置与虚拟讲话者的位置处于预定关系的情况下，执行如下处理：向用户提供使虚拟讲话者利用根据用户的内容与用户对话的语音。

在提供步骤中，在由获得步骤获得的位置和虚拟讲话者的位置处于预定范围内的情况下，可以执行用于提供语音的处理。

在提供步骤中，在由获得步骤获得的位置和虚拟讲话者的位置处于预定距离的范围内并且虚拟讲话者的位置在用户面对的方向上的情况下，可以执行用于提供语音的处理。

在提供步骤中，可以根据由获得步骤获得的位置与虚拟讲话者的位置之间的距离，改变语音的内容。

另外，本发明提供了一种程序，其使得计算机用作：获得装置，用于获得用户的位置；以及提供装置，在由获得装置获得的位置和虚拟讲话者的位置处于预定关系的情况下，提供装置执行如下处理：向用户提供使虚拟讲话者利用根据用户的内容与用户对话的语音。

本发明的有益效果

根据本发明，能够实现在虚拟讲话者与用户之间的语音通信。

附图说明

图1是示出根据本发明优选实施例的语音提供系统的整体构造的示图。

图2是示出语音提供系统中的语音再现设备的硬件构造的框图。

图3是示出语音提供系统中的语音提供设备的硬件构造的框图。

图4是示出存储在语音提供设备中的位置DB的示例的示图。

图5是示出语音提供系统中的每个设备的功能构造的框图。

图6是示出语音提供设备的操作的流程图。

图7是示出用户与虚拟讲话者的位置关系的示例的示意图。

具体实施方式

图1是示出作为本发明优选实施例的语音提供系统的整体构造的示图。例如，语音提供系统被设置在诸如游乐园、游乐设施、娱乐设施、公共设施、商业设施或活动场地设施的设施的区域中。在语音提供系统中，与用户对话和通信的虚拟的讲话者被定义在设施的区域中的任意位置处。例如，在语音提供系统设置于娱乐设施中的情况下，本文的虚拟的讲话者(以下称为虚拟讲话者)是被假设能够与人类对话的讲话者的虚构存在，诸如象征娱乐设施的吉祥物或角色。在虚拟讲话者存在于距用户的预定范围内的情况下，虚拟讲话者的语音被提供给用户。结果是，用户可以感觉到好像虚拟讲话者就在其附近，并且进一步通过亲自说话来与虚拟讲话者对话。

如图1所示，语音提供系统包括：提供语音的语音提供设备100 以及对提供的语音进行再现的语音再现设备200。网络900是用于根据预定电信标准执行数据通信的有线或无线通信网络。语音提供设备 100和语音再现设备200通过网络900连接以相互通信，并且经由该网络900交换数据。要注意的是，尽管图1中示出一个语音提供设备 100和一个语音再现设备200，但可以设置多个语音提供设备和语音再现设备。

例如，语音再现设备200是在附着于用户或由用户携带的状态下使用的可穿戴终端。尽管语音再现设备200的形状是任意的，但该形状例如可以是附着于用户头部的眼镜类型、帽子类型、头巾类型、头戴式耳机类型、耳套类型、或发带类型；可以是附着于用户耳部的耳机类型、穿孔耳环类型、或耳环类型；可以是挂在用户脖子上的项链类型；可以是附着于用户手腕或手臂的手表类型、腕带类型、或臂带类型；可以是附着于用户的衣服等的胸针类型、徽章类型、或类似类型；或者可以是由用户携带的平板电脑类型或智能手机类型。

图2是示出语音再现设备200的硬件构造的框图。语音再现设备200包括：控制部21，其例如包括算术处理设备(诸如CPU(中央处理单元))和存储设备(诸如ROM(只读存储器)和RAM(随机存取存储器))；通信部22，其例如包括天线和通信电路，并且通过网络900执行无线通信；存储部23，其例如包括EEPROM(电可擦除可编程ROM)或闪速存储器；再现部24，其包括扬声器，对音频数据进行再现并且输出语音；方向检测部25，其例如包括方向传感器或陀螺仪传感器，并且检测语音再现设备200面对的方向(本文中，假设语音再现设备200的方向是用户面对的方向)；定位部26，其例如使用GPS(全球定位系统)执行定位；UI(用户接口)部27，其例如包括包含物理控制器(诸如键或触摸传感器)的操作部、以及显示部(诸如液晶面板或液晶驱动电路)；以及声音收集部28，其收集来自麦克风的语音。

存储部23在存储控制部11所使用的数据组和程序组的同时，存储例如指示虚拟讲话者的语音的多条语音数据。控制部21从存储部23读出从语音提供设备100通过通信部22指派的语音数据，并且通过再现部24再现读出的声音数据。另外，控制部21通过通信部 22将指示了已经由声音收集部28收集的用户语音的声音数据发送至语音提供设备100。语音提供设备100向语音再现设备200指派虚拟讲话者的与该用户的语音数据对应的声音数据。在语音再现设备200 中再现指派的声音数据。结果，实现了用户与虚拟讲话者之间的双向对话。要注意的是，用户与虚拟讲话者之间的通信可以不一定限于双向对话，而可以是例如从虚拟讲话者至用户的单向对话。

图3是示出语音提供设备100的硬件构造的框图。语音提供设备100例如是诸如服务器机器的计算机，并且包括控制部11、通信部12和存储部13。控制部11包括诸如CPU的算术设备以及诸如ROM 和RAM的存储设备。CPU通过使用RAM作为工作区并执行存储在ROM 或存储部13中的程序来控制语音提供设备100的各个部分的操作。通信部12连接至网络900并通过网络900执行通信。存储部13例如是诸如硬盘的存储设备，并且存储控制部11所使用的数据组或程序组。

存储部13例如存储语音数据库(数据库在下文中被称为DB)和位置DB，声音DB包括与语音交互算法或虚拟讲话者的语音数据有关的信息(例如，对存储在语音再现设备200中的语音数据进行识别的语音ID)，位置DB管理用户和虚拟讲话者的位置。

语音交互算法可以是任何算法，只要该算法用于辨识用户的语音并且利用语音来对辨识结果作出响应即可，例如，作为语音辨识算法，已知的是使用隐马尔可夫模型等的算法。

图4是示出位置DB的示例的示图。在位置DB中，作为用户和虚拟讲话者中的每一个的识别信息的用户ID和虚拟讲话者ID与指示了用户和虚拟讲话者中的每一个的位置的位置信息相互关联。语音再现设备200将用户的位置信息通知到语音提供设备100，并且位置DB 中的用户的位置根据该通知来更新。虚拟讲话者的位置信息可以是固定位置，也可以是随时间改变的位置。在位置改变的情况下，根据预定位置改变算法来更新位置DB中的虚拟讲话者的位置。位置改变算法虽然是任何算法，但例如可以是在安装语音提供系统的区域中随机选择任意位置的算法，或者可以是在安装语音提供系统的区域中所确定的预定路线上将位置移动预定距离的算法。位置改变算法可以针对每个虚拟讲话者而不同，一个虚拟讲话者的位置改变算法可以根据诸如时间和日期的条件而切换。

图5是示出语音再现设备200和语音提供设备100的功能构造的示图。语音再现设备200的检测部201检测用户的位置和用户面对的方向。语音再现设备200的声音收集部202收集语音并生成语音数据。语音再现设备200的通知部203向语音提供设备100通知已由检测部201检测到的用户的位置和用户面对的方向、以及已由声音收集部202生成的语音数据。

语音提供设备100的获得部101从语音再现设备200的通知部 203已通知的用户的位置、用户面对的方向、和语音数据。语音提供设备100的存储部102存储如上所述的声音DB和位置DB。更新部103 更新存储部102的存储内容(具体地，位置DB的内容)。在用户位置和虚拟讲话者位置中的至少一个处于预定关系的情况下，语音提供设备100的提供部104执行用于向用户提供语音的处理，以用于虚拟讲话者利用根据用户的内容与用户对话。在本优选实施例中，在虚拟讲话者的位置包括在例如用户面对的方向两侧45度的范围内、并且在与用户的距离小于或等于阈值的范围内的情况下，提供部104基于用户的语音数据指定虚拟讲话者的语音数据组中的适当的语音数据，并且通过将指定的语音数据指派到语音再现设备200来为用户提供语音。此时，提供部104向语音再现设备200指派利用根据用户与虚拟讲话者之间的距离的音量的声音再现。

语音再现设备200的再现部204以指派的音量来再现从语音提供设备100指派的语音数据，并且输出语音。用户倾听从语音再现设备200再现的语音。

上述语音再现设备200的检测部201由图2所示的方向检测部 25和定位部26实现，声音收集部202由声音收集部28实现，通知部203由图2所示的通信部22实现，再现部204由图2所示的再现部24实现。语音提供设备100的获得部101由图3所示的通信部12 实现，存储部102由图3所示的存储部13实现，更新部103由图3 所示的控制部11实现，提供部104由图3所示的控制部11和通信部 12实现。

[操作]

接下来，将参照图6描述本优选实施例的操作。首先，用户操作语音再现设备200并执行用于启动语音提供服务的操作。当语音再现设备200接收到该操作时，声音收集部202收集语音并生成语音数据(步骤S11)。在该步骤中，在用户说话的情况下，收集用户的语音，并且特别地在用户没有说话的情况下，例如收集诸如背景音乐的环境声音。

接着，语音再现设备200的检测部201检测用户的位置和用户面对的方向(步骤S12)。如上所述，本文中用户的位置是语音再现设备200的位置，并且用户面对的方向是语音再现设备200面对的方向。语音再现设备200的通知部203向语音提供设备100，与用户ID一起还通知了用户的位置和用户面对的方向、以及从收集的语音生成的语音数据和(步骤S13)。该用户ID可以预先存储在存储部23中，或者可以在用户启动该语音提供服务时输入至语音再现设备200。

语音提供设备100的获得部101获得已从语音再现设备200的通知部203通知的用户的位置、用户面对的方向、用户ID和语音数据。通过参考位置DB，提供部104提取包括在这样的范围中的虚拟讲话者：与用户的位置关系可能处于预定位置关系(步骤S14)。更具体地，提供部104确定虚拟讲话者的位置例如是否被包括在所获得的用户ID的用户面对的方向两侧上45度的范围之内，并且在与用户的距离可能小于或等于阈值的这种范围内。

图7是示出用户与虚拟讲话者的位置关系的示例的示意图。在图7中，在二维平面上基于位置DB的内容指示了用户U1和用户U2 以及虚拟讲话者G1至虚拟讲话者G5的位置。方向D1和方向D2分别指示用户U1和用户U2面对的方向。用户U1和用户U2在安装语音提供系统的区域中自由移动。因此，用户U1和用户U2的位置和方向不规则地改变。另一方面，如上所述，虚拟讲话者G1至虚拟讲话者G5 的位置可以是固定的位置而不管时间如何，或者可以是基于位置改变算法而随时间改变的位置。因此，在某个时刻，用户U1和用户U2 以及虚拟讲话者G1至虚拟讲话者G5可能碰巧彼此接近，并且在不同的时刻，用户U1和用户U2以及虚拟讲话者G1至虚拟讲话者G5可能彼此分开。

例如，当用户U1面对方向D1时，虚拟讲话者G1的位置包括在基于指示方向D1的射线的预定范围中(图7中指示方向D1的射线两侧45度的范围内)。因此，在这种情况下，提供部104确定虚拟讲话者U1的位置包括在与用户的位置关系处于预定位置关系的范围内。另一方面，当用户U2面对方向D2时，例如，任何虚拟讲话者的位置均未包括在基于指示方向D2的射线的预定范围中。因此，在这种情况下，提供部104确定没有虚拟讲话者包括在与用户的位置关系处于预定位置关系的范围内。

返回描述图6，提供部104基于在步骤S13中已获得的用户的语音数据来根据语音交互算法指定对用户的语音进行回答的虚拟讲话者的语音数据。例如，当获得的语音数据是用户的话语内容(诸如“你好，有人吗？”)时，指定对用户的问题进行回答的虚拟讲话者的语音数据(诸如“是的，我在这儿。你好！”)。另外，当获得的语音数据是诸如背景音乐的环境声音时，指定使得虚拟讲话者可以主动发出诸如“你好，有什么需要帮忙的吗？”的话语的语音数据。

此外，提供部104计算用户的位置与虚拟讲话者的位置之间的距离，并将语音数据的音量参数设定为根据距离的值。例如，提供部 104执行音量参数设定以在用户与虚拟讲话者之间的距离大时调低音量并且在用户与虚拟讲话者之间的距离小时调高音量。

提供部104通过网络900将语音ID和在步骤S15中指定的语音数据的音量参数发送至语音再现设备200。结果，指派了将在语音再现设备200中再现的语音(步骤S16)。

语音再现设备200的再现部204从存储部23读出从提供部104 指派的语音ID的语音数据，并且以根据从提供部104指派的音量参数的音量来执行语音再现(步骤S17)。

下面，重复上述步骤S11至S17的处理，使得在用户与虚拟讲话者之间进行双向对话。结果，用户可以感觉好像虚拟讲话者就在其附近，并进一步可以通过音量的大小而感性地得知从自身到虚拟讲话者的距离。

通过上述优选实施例，可以实现用户的位置和方向与语音关联的新的信息提供服务，即通过语音在虚拟讲话者与用户之间通信。另外，语音提供侧(例如，娱乐设施的运营者)可以预期通过提供给用户的语音而将用户吸引至该设施的顾客吸引效果。

[修改示例]

上述优选实施例能够如下地修改。另外，以下修改示例可以组合并实施。

[修改示例1]

可以再现其中基于用户将虚拟讲话者的位置设定为语音源的声音场。具体地，语音再现设备200安装多个扬声器并且暂时地延迟从扬声器中的每一个发出语音的时序，使得可以实现这样的声音场：其能够实现从听到虚拟讲话者的语音的方向的声像定位(soundimage local ization)。语音提供设备100的提供部104对语音再现设备100提供用于根据用户与虚拟讲话者之间的位置关系实现声像定位的声音场参数(具体地，从每个扬声器发出语音的时序的延迟时间)。换句话说，提供部104执行以下处理：根据用户的位置与虚拟讲话者的位置之间的关系，与虚拟讲话者的声音一起提供用于执行语音的声音发出处理的声音场。通过这种方式，用户可以感觉到虚拟讲话者在哪个方向上。

[修改示例2]

尽管在优选实施例中，已通过从附着于每个用户或由用户携带的语音再现设备200发出来向用户提供语音，但向用户发出语音的设备不限于该示例，并且例如可以通过诸如放置在安装了该语音提供系统的区域中的扬声器的语音再现设备来向用户发出语音。具体地，上述的包括扬声器的语音再现设备、以及附着于每个用户或由每个用户携带的并且具有检测部201的功能的通信终端被构造为单独的设备，并且该语音再现设备和通信终端包括执行相互的无线数据通信的功能。通信终端检测其自身的位置和方向(即，用户的位置和用户面对的方向)，并向能够与其通信的语音再现设备(即，用户附近的语音再现设备)通知所述位置和方向。语音再现设备将已从通信终端通知的用户的位置和方向发送至语音提供设备100。语音提供设备100指定与用户的位置和方向具有预定关系的虚拟讲话者，并将用于虚拟讲话者与用户进行对话的语音数据指派给上述语音再现设备。语音再现设备对指派的声音数据进行再现。

[修改示例3]

在优选实施例中，语音提供设备100的提供部104在用户与虚拟讲话者处于预定范围内并且虚拟讲话者处在用户面对的方向上(例如，用户面对的方向两侧45度的范围内)的情况下提供语音。然而，不一定要求将用户面对的方向作为提供语音的条件。换句话说，提供部104可以在用户的位置与虚拟讲话者的位置之间的距离处于预定关系的情况下执行用于提供语音的处理。

[修改示例4]

尽管在优选实施例中，提供部104执行用于提供语音以用于虚拟讲话者根据用户的内容与用户进行对话的处理，但“根据用户的内容”在本文中意指根据用户的话语内容。所述“根据用户的内容”还可以包括诸如下文所述的用户的属性、行为、生物信息或感受的含义。

用户的属性例如包括用户的年龄、性别、兴趣和偏好。在这种情况下，语音提供设备100的存储部102存储作为对每个用户进行识别的识别信息的用户ID与用户的属性组之间的关联。用户的属性组已由用户预先登记或声明。提供部104将根据该用户属性的内容的语音数据指定为虚拟讲话者的语音数据。例如，当用户的兴趣是运动时，将运动相关的主题用作用户与虚拟讲话者之间的对话主题。

另外，用户的行为包括用户的动作和移动历史。在这种情况下，语音再现设备200(作为检测用户行为的传感器)包括麦克风、加速度传感器、陀螺仪传感器和定位部。提供部104根据从语音再现设备 200通知的用户的移动历史或动作指定虚拟讲话者的语音。

作为用户的移动历史，可以使用紧接在指定虚拟讲话者的语音先前的位置、或者位置的改变的历史，或者可以使用过去的位置或位置改变(例如，在指定虚拟讲话者的语音之前一个小时或在最后一次访问设施期间)。例如，在使用在最后一次访问设施期间的位置的情况下，作为先前进入设施的移动历史，例如，记录了表明用户接近过山车的乘车区域并随后在没有乘坐过山车的情况下移动离开乘车区域的状态的历史；并且，在此次进入该设施期间的移动历史中，在已检测到乘坐了过山车的情况下，提供部104向用户提供虚拟讲话者的诸如“您之前没做到，但您现在做到了！”的语音。另外，作为行为，例如当检测到用户可能摇头的这种动作时，提供部104向用户提供虚拟讲话者的诸如“您有什么麻烦吗？”的语音。

另外，用户的动作例如包括用户的任何身体动作，诸如用户的面部表情、肢体语言、手势或动作模式。例如，在图6的步骤S13 中获得指示用户的动作的动作数据，并且在步骤S15中提供部104 基于动作数据指定虚拟讲话者对用户的语音数据。

用户的生物信息例如包括用户的体温、脉搏、排汗和脑电波。在这种情况下，语音再现设备200包括用于检测用户的生物信息的传感器。提供部104根据从语音再现设备200通知的用户的生物信息来指定虚拟讲话者的语音。另外，提供部104可以基于从语音再现设备 200通知的用户的生物信息和行为来估计用户的感受，并且可以根据感受来指定虚拟讲话者的语音。

[修改示例5]

尽管在优选实施例中，作为更新部103使用的虚拟讲话者的位置改变算法，例示了在安装语音提供系统的区域中的随机选择任意位置的算法或者在安装语音提供系统的区域中确定的预定路线上将位置移动预定距离的算法，但除了这些算法外还考虑以下算法。

例如，更新部103根据每个区域的拥塞状态更新虚拟讲话者的位置，例如基于对位于按预定标准划分的每个区域中的设施的访问者的数量来指定拥塞状态。在娱乐设施的情况下，每个区域的拥塞状态根据诸如受欢迎场点和节目的服务状态而大大不同。随后，提供部 104采用位置改变算法以检测设施中每个区域的拥塞程度，并且增大拥塞程度小于阈值的区域中的虚拟讲话者的出现概率。通过这种方式，可以利用期望与虚拟讲话者通信的用户的意识来将用户引导至拥塞较小的区域。例如，在通过对设施内部进行成像的摄像头等对设施的访问者的拥塞状态进行检测的情况下，能够指定携带了语音再现设备200的设施访问者和未携带语音再现设备200的设施访问者的拥塞状态。另外，例如在基于通过由每个语音再现设备200的定位部26 进行定位而获得的结果来对设施的访问者的拥塞状态进行检测的情况下，能够指定携带了语音再现设备200的设施访问者的拥塞状态。待检测其拥塞状态的设施访问者可以是以上设施访问者中的任一种。

另外，更新部103采用位置改变算法以存储可被提供给多个用户的服务(诸如场点或节目)的日程表(提供服务的位置和时间)，并且增大在可以提供这种服务时虚拟讲话者在区域中和时间下的出现概率。通过这种方式，可以利用期望与虚拟讲话者通信的用户的意识来将用户引导至提供服务的区域。

另外，即使在无法检测设施中每个区域的拥塞程度时，更新部 103也可以采用位置改变算法来存储可被提供给多个用户的服务(诸如场点或节目)的日程表，并且增大虚拟讲话者在从日程表估计出的每个区域的拥塞程度小于阈值的区域中的出现概率。即使通过这种方式，也能够利用期望与虚拟讲话者通信的用户的意识来将用户引导至具有较小拥塞的区域。

另外，更新部103根据正在与虚拟讲话者对话的用户的移动来更新虚拟讲话者的位置。换句话说，这是一种虚拟讲话者可以跟随已开始与该虚拟讲话者对话的用户的移动而作出与用户相同的位置改变的算法。通过这种方式，用户可以感觉到就好像与虚拟讲话者一起一边走一边对话。

[修改示例6]

提供部104在指定虚拟讲话者的语音数据时可以执行不指定一个虚拟讲话者的语音、而指定与用户与位置具有预定关系的多个虚拟讲话者的语音数据并向用户提供所有数据的处理。在这种情况下，例如，提供部104可以改变针对每个虚拟讲话者的语音数据的语音，或者可以根据用户的位置与虚拟讲话者的位置之间的距离控制每个语音的音量。

[修改示例7]

在本发明中用户与虚拟讲话者之间的通信不限于双向对话，而可以是单向对话。

[修改示例8]

在优选实施例中，尽管提供部104基于虚拟讲话者的位置与用户的位置之间的距离来控制语音数据的音量，但控制音量的方法不限于该方法。例如，提供部104向用户提供与基于用户位置的用户面对的方向和虚拟讲话者的位置之间的一致程度(例如，以用户位置作为起点且指示用户面对的方向的射线与虚拟讲话者的位置之间的接近度)对应的音量。

此外，可以基于虚拟讲话者与用户之间的位置关系来执行不仅改变语音数据的音量还改变语音数据的效果等(简言之，语音数据的声学参数)的声学处理。例如，提供部104可以通过均衡器根据虚拟讲话者与用户之间的距离来减小低频范围(从而例如在距离大的情况下，仅减小低频声音成分)，或者根据虚拟讲话者与用户之间的距离改变诸如延迟或混响的效果强度(从而例如在距离大的情况下，增大混响的强度)。

另外，除了水平方向上的位置，还可以使用高度方向上的位置作为虚拟讲话者的位置。在这种情况下，提供部104可以对语音数据执行已反映了虚拟讲话者在高度方向上的位置的声学处理。例如，在虚拟讲话者的位置高于用户的位置的情况下，提供部104可以通过使用头部相关传递函数(HRTF：Head-Related Transfer Funct ion)的处理来应用以下效果：从用户上方可以听到的虚拟讲话者的语音。

[修改示例9]

在优选实施例中，尽管提供部104基于虚拟讲话者的位置与用户的位置之间的距离来控制语音数据的音量，但语音数据的内容可以改变。例如，在虚拟讲话者的位置包括在用户面对的方向两侧45度的范围内并且例如在与用户的距离小于第一阈值的范围中的情况下，提供部104提供诸如“嗨，在这儿”的语音数据；在虚拟讲话者的位置包括在用户面对的方向两侧45度的范围内并且例如在与用户的距离大于第二阈值且小于第一阈值的范围中的情况下，提供诸如“这边请”的语音数据；并且，在虚拟讲话者的位置包括在用户面对的方向两侧45度的范围内并且例如在与用户的距离不大于第二阈值的情况下，提供诸如“你好”的语音数据。在优选实施例中，第二阈值小于第一阈值。

要注意的是，提供部104可以基于虚拟讲话者的位置与用户的位置之间的距离来改变音量和语音数据的内容两者。

[修改示例10]

在优选实施例中，尽管对用户面对的方向进行检测的方向检测部25包括方向传感器和陀螺仪传感器，但可以使用信标发射机检测用户面对的方向。具体地，方向检测部25可以包括从先前安装的信标发射机接收信号的接收部。

例如，先前将多个信标发射机安装在彼此不同的位置处，并且方向检测部25通过接收部并且使用诸如三角测量之类的技术从多个信标发射机接收信标信号来检测用户面对的方向。

可替代地，可以提前安装一个信标发射机以将用户引导至预定范围。在这种情况下，通过信标信号来检测信标发射机的方向，并且基于信标发射机的方向检测用户面对的方向。将用户引导至预定范围的方法例如包括在地上作标记或提供真实或虚拟墙壁。引导用户的方法不限于上述方法，仅需能够将用户引导至预定范围并且限制用户在预定范围中的位置即可。另外，信标发射机或接收部可以仅在用户进入预定范围时操作。

[修改示例11]

对用户提供的语音不限于先前已存储在语音再现设备200的存储部23中的语音，并且可以存储在语音提供设备100的存储部13 中。在这种情况下，例如可以每次在执行图6的步骤S16的时，将语音数据从语音提供设备100提供至语音再现设备200。另外，除了语音，提供部104还可以向语音再现设备200提供除了与用户位置有关的语音之外的数据(例如，对关于用户位置的设施内信息进行描述的文字数据或者指示与位置有关的图像的图像数据)。

[修改示例12]

用于描述上述优选实施例的图5的框图示出了功能单元的框。这些功能框中的每一个通过任意组合硬件和/或软件来实现。此外，每个功能框不具体地限制于如何实现。换句话说，每个功能框可以通过一个物理和/或逻辑组合的设备实现，或者可以通过由(例如，通过有线和/或无线地)直接和/或间接地连接的两个或更多物理和/或逻辑分离的设备所构造的多个设备来实现。因此，根据本发明的语音提供设备或语音再现设备还能够通过整体上包括了优选实施例中描述的所有相应功能的设备来实现，或者可以是其中每个设备的功能被进一步划分并且安装到多个设备中的系统。另外，只要不发生冲突，上述优选实施例中描述的处理的步骤的顺序均可改变。在优选实施例中描述的方法中，各个步骤的元素是以示例性的顺序呈现的，其顺序并不限于所呈现的特定顺序。

本发明还能够以诸如由语音提供设备或语音再现设备所执行的信息处理方法的形式来实现。另外，本发明还能够以诸如用于使计算机用作语音提供设备或语音再现设备的程序的形式来实现。这样的程序能够以被记录在诸如光盘的记录介质中的形式来提供，或者以经由诸如互联网的通信网络被下载到计算机并安装以便可用的形式来提供。

本申请基于2017年4月10提交的日本专利申请(No. 2017-077348)，其内容通过引用并入本文。

参考符号列表

100 语音提供设备

11 控制部

12 通信部

13 存储部

101 获得部

102 存储部

103 更新部

104 提供部

200 语音再现设备

21 控制部

22 通信部

23 存储部

24 再现部

25 方向检测部

26 定位部

27 UI部

28 声音收集部

201 检测部

202 声音收集部

203 通知部

204 再现部

900 网络

Claims

1.一种语音提供设备，包括：

获得装置(101)，其用于获得用户的位置；

提供装置(104)，在由所述获得装置(101)获得的位置和虚拟讲话者的位置处于预定关系的情况下，所述提供装置(104)执行如下处理：向用户提供使所述虚拟讲话者根据用户的内容与所述用户对话的语音，以及

更新装置(103)，其根据每个区域的拥塞状态来更新所述虚拟讲话者的位置。

2.根据权利要求1所述的语音提供设备，其中，所述提供装置(104)执行如下处理：根据由所述获得装置(101)获得的位置与所述虚拟讲话者的位置之间的关系，与所述语音一起提供用于执行所述语音的声音发出处理的声音场。

3.根据权利要求1所述的语音提供设备，其中，在由所述获得装置(101)获得的位置和所述虚拟讲话者的位置处于预定范围内的情况下，所述提供装置(104)执行用于提供所述语音的处理。

4.根据权利要求3所述的语音提供设备，其中，在由所述获得装置(101)获得的位置和所述虚拟讲话者的位置处于预定距离的范围内并且所述虚拟讲话者的位置在所述用户面对的方向上的情况下，所述提供装置(104)执行用于提供所述语音的处理。

5.根据权利要求3或4所述的语音提供设备，其中，所述提供装置(104)根据由所述获得装置(101)获得的位置与所述虚拟讲话者的位置之间的距离来改变所述语音的内容。

6.根据权利要求1所述的语音提供设备，其中，所述提供装置(104)执行如下处理：提供使所述虚拟讲话者根据所述用户的属性、行为、生物信息或感受的内容与所述用户对话的语音。

7.根据权利要求2所述的语音提供设备，其中，所述提供装置(104)执行如下处理：提供使所述虚拟讲话者根据所述用户的属性、行为、生物信息或感受的内容与所述用户对话的语音。

8.根据权利要求3所述的语音提供设备，其中，所述提供装置(104)执行如下处理：提供使所述虚拟讲话者根据所述用户的属性、行为、生物信息或感受的内容与所述用户对话的语音。

9.根据权利要求4所述的语音提供设备，其中，所述提供装置(104)执行如下处理：提供使所述虚拟讲话者根据所述用户的属性、行为、生物信息或感受的内容与所述用户对话的语音。

10.根据权利要求5所述的语音提供设备，其中，所述提供装置(104)执行如下处理：提供使所述虚拟讲话者根据所述用户的属性、行为、生物信息或感受的内容与所述用户对话的语音。

11.一种语音提供设备，包括：

获得装置(101)，其用于获得用户的位置；

更新装置(103)，其根据每个区域中将要提供的服务的状态来更新所述虚拟讲话者的位置。

12.一种语音提供方法，包括：

获得步骤，用于获得用户的位置；

提供步骤，用于在所获得的位置与虚拟讲话者的位置处于预定关系的情况下执行如下处理：向用户提供使所述虚拟讲话者根据用户的内容与所述用户对话的语音，以及

更新步骤，其根据每个区域的拥塞状态来更新所述虚拟讲话者的位置。

13.根据权利要求12所述的语音提供方法，其中，在所述提供步骤中，在由所述获得步骤获得的位置和所述虚拟讲话者的位置处于预定范围内的情况下，执行所述用于提供语音的处理。

14.根据权利要求13所述的语音提供方法，其中，在所述提供步骤中，在由所述获得步骤获得的位置和所述虚拟讲话者的位置处于预定距离的范围内并且所述虚拟讲话者的位置在用户面对的方向上的情况下，执行所述用于提供语音的处理。

15.根据权利要求13或14所述的语音提供方法，其中，在所述提供步骤中，根据由所述获得步骤获得的位置与所述虚拟讲话者的位置之间的距离来改变所述语音的内容。

16.一种程序记录介质，其使得计算机用作：

获得装置(101)，用于获得用户的位置；

提供装置(104)，在由所述获得装置(101)获得的位置和虚拟讲话者的位置处于预定关系的情况下，所述提供装置执行如下处理：向用户提供使所述虚拟讲话者根据用户的内容与所述用户对话的语音，以及