CN103053181A

CN103053181A - 语音控制装置及语音控制方法

Info

Publication number: CN103053181A
Application number: CN2012800022527A
Authority: CN
Inventors: 中井健太郎
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2011-03-08
Filing date: 2012-02-23
Publication date: 2013-04-17
Also published as: US20130156201A1; JP5942170B2; JPWO2012120810A1; WO2012120810A1

Abstract

本发明提供一种语音控制装置，不使用视觉而可确认选择了立体地配置于虚拟空间的声源的哪个。该语音控制装置是进行有关立体地配置于虚拟空间的声源的处理的装置，其具有决定虚拟空间中的选择位置即指针的当前位置的指针位置计算单元(664)、和生成音响指针的音响指针生成单元(667)，所述音响指针通过与周围的音响状态的差异来表示指针的当前位置。

Description

语音控制装置及语音控制方法

技术领域

本发明涉及进行有关立体地配置于虚拟空间的声源的处理的语音控制装置及语音控制方法。

背景技术

近年来，可将短的文本消息经由网络在用户间轻松交换的服务正在增加。另外，存在可将发话语音上传到网络上的服务器在用户间简单共享的服务。

因此，作为将这些服务融合的形式，期待不用眼睛阅读而是可用耳朵听从多个用户发来的消息的服务。这是由于如果能够用耳朵确认从多个用户发来的短句(嘀咕)，则可以不使用视觉而获取多个信息。

例如在专利文献1中记载了处理多个语音信息的技术。专利文献1记载的技术中，将分配给多个语音数据的多个声源立体地配置于虚拟空间，输出各语音数据。另外，专利文献1记载的技术中，在画面上显示各声源的位置关系图，通过光标表示选择了哪一语音。通过使用该技术对各输出源分配不同的声源，从而可以容易地听清来自多个其它用户的语音。而且，用户可以一边确认选择了哪一语音一边进行各种操作(例如音量的变更)。

现有技术文献

专利文献

专利文献1：日本特开2005-269231号公报

发明要解决的问题

但是，在上述的专利文献1中，存在如果不看画面就不能确认选择了哪一语音的问题。为了实现更便于用户的服务，希望不使用视觉而能够确认选择了哪一语音。

发明内容

本发明的目的在于，提供一种语音控制装置及语音控制方法，其不使用视觉而能够确认选择了立体地配置于虚拟空间中的声源的哪个。

解决问题的方案

本发明的语音控制装置，其进行有关立体地配置于虚拟空间的声源的处理，其中，具有：指针位置计算单元，其决定所述虚拟空间中的选择位置即指针的当前位置；音响指针生成单元，其生成音响指针，所述音响指针通过与周围的音响状态的差异表示所述指针的当前位置。

本发明提供一种语音控制方法，进行有关立体地配置于虚拟空间的声源的处理，其中，具有：决定所述虚拟空间中的选择位置即指针的当前位置的步骤；生成音响指针的步骤，所述音响指针通过与周围的音响状态的差异表示所述指针的当前位置。

发明效果

根据本发明，不使用视觉而能够确认选择了立体地配置于虚拟空间的声源的哪个。

附图说明

图1是表示包含本发明一实施方式的语音控制装置的终端装置的结构之一例的框图；

图2是表示本实施方式的控制单元的结构之一例的框图；

图3是表示本实施方式的合成语音数据的声场感觉之一例的示意图；

图4是表示本实施方式的终端装置的动作之一例的流程图；

图5是表示本实施方式的位置计算处理之一例的流程图；

图6是表示本实施方式的合成语音数据的声场感觉的另一例的示意图；

符号说明

100终端装置

200通信网络

300语音消息管理服务器

400语音输入输出装置

500操作输入装置

600语音控制装置

610通信接口单元

620语音输入输出单元

630操作输入单元

640存储单元

650播放单元

660控制单元

661声源插入控制单元

662声源配置计算单元

663操作模式判别单元

664指针位置计算单元

665指针判定单元

666选择声源记录单元

667音响指针生成单元

668语音合成单元

669操作指令控制单元

具体实施方式

下面，参照附图详细说明本发明的一实施方式。本实施方式是将本发明适用于可带出户外且可与其它用户进行语音交流的终端装置的例子。

图1是表示包含本发明一实施方式的语音控制装置的终端装置的结构之一例的框图。

图1所示的终端装置100是可经由因特网或内部网等通信网络200与语音消息管理服务器300连接的装置。终端装置100通过语音消息管理服务器300与其它终端装置(未图示)进行语音消息的数据交换。以下将语音消息的数据简称为“语音消息”。

在此，语音消息管理服务器300是管理从各终端装置上传的语音消息且将各语音消息在被上传的时刻向多个终端装置分发的装置。

语音消息例如作为WAV等规定格式的文件被进行传输及保存。特别是，也可以在从语音消息管理服务器300分发语音消息时，作为流媒体格式的数据进行传输。在此，在所上传的语音消息中随附有包含进行了上传的用户(发送源)的用户名、上传日期时间及语音消息的长度的元数据。元数据例如作为XML(extensible markup language，可扩展标记语言)等规定格式的文件被传输及保存。

终端装置100具有语音输入输出装置400、操作输入装置500及语音控制装置600。

语音输入输出装置400将从语音控制装置600输入的语音消息语音化并向用户输出，且将从用户输入的语音消息信号化并向语音控制装置600输出。本实施方式中，将语音输入输出装置400设为具备麦克风及耳机的头戴式送受话器。

语音输入输出装置400输入的语音中含有以上传为目的的用户的语音消息、和以对语音控制装置600的操作为目的的操作指令的语音数据。下面，将操作指令的语音数据称为“语音指令”。另外，语音消息不限于用户的发话语音，也可以是通过语音合成生成的语音或音乐等。

另外，对于本发明中所说的“语音”，根据作为语音消息而例举的例子可知，是指不限于人类的声音的一般声音。即，“语音”是指如音乐、虫等动物类的鸣叫声、来自机械的噪音等人工的声音、及瀑布或雷等自然的声音那样泛指的声音(sound)。

操作输入装置500检测用户的动作及操作(以下总称为“操作”)，将表示检测到的操作的内容的操作信息输出到语音控制装置600。在本实施方式中，操作输入装置500为安装于上述头戴式送受话器的3D(dimension，维)运动传感器。3D运动传感器可获取方位及加速度。因此，在本实施方式中，操作信息是作为表示实空间中的用户的头部的朝向的信息的方位和加速度。下面，将用户的头部简称为“头部”。另外，在本实施方式中，将实空间中的用户的头部的朝向设为脸的正面的朝向。

此外，设语音输入输出装置400及操作输入装置500例如通过有线电缆或蓝牙(BlueTooth(注册商标))等无线通信分别与语音控制装置600连接。

语音控制装置600将从语音消息管理服务器300接收的语音消息作为虚拟空间内的声源进行配置，且向语音输入输出装置400输出。

具体而言，语音控制装置600将从语音消息管理服务器300发送来的其它用户的语音消息作为虚拟空间的声源立体地进行配置。下面，将从语音消息管理服务器300发送来的其它用户的语音消息称作“接收语音消息”。而且，语音控制装置600将其转换为从配置于虚拟空间的声源可听到语音消息那样的语音数据，并输出到语音输入输出装置400。即，语音控制装置600将多个接收语音消息以容易区分开地听清的方式配置于虚拟空间并提供给用户。

另外，语音控制装置600将从语音输入输出装置400输入的用户的语音消息发送到语音消息管理服务器300。下面，将从语音输入输出装置400输入的用户的语音消息称作“发送语音消息”。即，语音控制装置600将发送语音消息上传到语音消息管理服务器300。

另外，语音控制装置600决定虚拟空间中的选择位置即指针的当前位置，使用音响指针表示该位置。在本实施方式中，设指针为表示作为操作对象被选择的位置的操作指针。音响指针是指在虚拟空间上通过与和周围的语音消息的音响状态的不同来表示指针(本实施方式中为操作指针)的当前位置的指针。

音响指针例如取与操作指针的当前位置相对应的声源的语音消息和其它语音消息之间的差异的方式。该差异包括因音质或音量等不同而使所选择的语音消息比其它未选择的语音消息清晰的情况。这种情况下，用户可根据各语音消息的音质或音量的变化来把握选择了哪一声源。

另外，音响指针例如取从操作指针的当前位置输出的蜂鸣声等规定的声音方式。该情况下，用户将听到规定的声音的位置识别为操作指针的位置，可以把握选择了哪一声源。

本实施方式中，设音响指针取从操作指针的当前位置周期性输出的规定的合成音的方式。下面将这样的合成音称作“指针音”。另外，操作指针及音响指针彼此位置相对应，因此总称为“指针”。

语音控制装置600通过操作输入装置500从用户接收对指针的移动操作、及对由指针选择的声源的决定操作。而且，语音控制装置600进行指定了已被进行决定操作的声源的各种处理。即，决定操作是从用户听着接收语音消息的状态转移到进行指定了接收语音消息的操作的状态的操作。此时，语音控制装置600如上述通过语音指令从用户接收操作指令的输入，进行与所输入的操作指令相对应的处理。

将本实施方式的决定操作设为通过头部的点头的动作进行的操作。另外，可通过操作指令指定的处理中例如包括：接收语音数据的播放开始、播放停止、及倒回等特技播放(trick play)。

如图1所示，语音控制装置600具有通信接口单元610、语音输入输出单元620、操作输入单元630、存储单元640、控制单元660及播放单元650。

通信接口单元610与通信网络200连接，经由通信网络200与语音消息管理服务器300及WWW(world wide web，环球信息网)连接，进行数据的收发。通信接口单元610例如是有线LAN(local area network，局域网)或无线LAN的通信接口。

语音输入输出单元620是以可通信的方式与语音输入输出装置400连接的通信接口。

操作输入单元630是以可通信的方式与操作输入装置500连接的通信接口。

存储单元640是由语音控制装置600的各单元使用的存储区域，例如保存接收语音消息。存储单元640例如为存储卡等即使停止电源供给也能够保持存储内容的非易失性的存储设备。

控制单元660通过通信接口单元610接收从语音消息管理服务器300分发的语音消息。而且，控制单元660将接收语音消息立体地配置于虚拟空间。而且，控制单元660通过操作输入单元630从操作输入装置500输入操作信息，接收上述操作指针的移动操作及决定操作。

此时，控制单元660生成上述音响指针。而且，控制单元660生成将立体配置的接收语音消息和配置于操作指针的位置的音响指针合成而得到的语音数据，并输出到播放单元650。以下将通过这样的合成得到的语音数据称为“立体语音数据”。

另外，控制单元660通过语音输入输出单元620从语音输入输出装置400输入发送语音消息，且通过通信接口单元610上传到语音消息管理服务器300。另外，控制单元660进行对选择对象的决定操作。且，控制单元660在每次通过语音输入输出单元620从语音输入输出装置400输入语音指令时，进行对上述的接收语音数据等的各种处理。

播放单元650将从控制单元660输入的立体语音数据解码，且通过语音输入输出单元620输出到语音输入输出装置400。

此外，语音控制装置600例如是包含CPU(central processing unit，中央处理器)及RAM(random access memory，随机存储器)等存储介质等的计算机。该情况下，语音控制装置600通过CPU执行所存储的控制程序来进行动作。

这样的终端装置100通过音响指针表示操作指针的当前位置。由此，终端装置100使用户不使用视觉而能够确认选择了立体地配置于虚拟空间的声源的哪个的同时进行操作。即，即使在终端装置100中具备画面显示装置，用户不使用GUI(graphical user interface，图形用户界面)也能够确认选择了哪个声源，并进行操作。即，通过使用本实施方式的终端装置100，用户不注视画面而可以方便地选择成为操作对象的声源。

在此，说明控制单元660的细节之一例。

图2是表示控制单元660的结构之一例的框图。

如图2所示，控制单元660具有声源插入控制单元661、声源配置计算单元662、操作模式判别单元663、指针位置计算单元664、指针判定单元665、选择声源记录单元666、音响指针生成单元667、语音合成单元668及操作指令控制单元669。

声源插入控制单元661在每次通过通信接口单元610接收语音消息时，将接收语音消息与插入通知一同输出到声源配置计算单元662。

声源配置计算单元662在每次输入了插入通知时，将接收语音消息配置在虚拟空间中。具体而言，声源配置计算单元662将接收语音数据按接收语音数据的每个发送源配置在不同的位置。

例如，假设在配置有来自第一发送源的接收语音消息的状态下向声源配置计算单元662输入了来自第二发送源的接收语音消息的插入通知的情况。这种情况下，声源配置计算单元662将来自第二发送源的接收语音消息配置在与第一发送源不同的位置。声源例如被配置在与头部成水平的平面上且以用户的位置为中心的同心圆上的等分的位置。而且，声源配置计算单元662将各声源的在虚拟空间中的当前位置与各自的接收语音消息的识别信息及接收语音消息一同输出到指针判定单元665及语音合成单元668。

操作模式判别单元663在动作模式为操作模式时，将通过操作输入单元630输入的操作信息输出到指针位置计算单元664。在此，操作模式是指使用操作指针进行操作的模式。本实施方式的操作模式判别单元663以头部点头的动作为触发向操作模式处理转移。

指针位置计算单元664首先基于操作信息获取实空间的头部的朝向的初始状态(例如朝向正对面的状态)，将虚拟空间的朝向固定为初始状态的头部的朝向。而且，指针位置计算单元664在每次输入了操作信息时，根据头部的朝向与初始状态的比较来计算虚拟空间中的操作指针的位置。而且，指针位置计算单元664将虚拟空间中的操作指针的当前位置输出到指针判定单元665。

设本实施方式的指针位置计算单元664获取位于与用户的脸的正面相对且距用户规定距离的位置，作为操作指针的当前位置。因此，虚拟空间中的操作指针的位置追随用户头部的朝向的变化而变化，总是位于用户的脸的正面。这与使脸朝向人正在关注的对象相对应。

另外，指针位置计算单元664获取根据操作信息求的实世界的头部的朝向，作为头戴式送受话器的朝向。而且，指针位置计算单元664根据头戴式送受话器的朝向生成头戴式送受话器的倾斜信息，且输出到指针判定单元665及语音合成单元668。在此，头戴式送受话器的倾斜信息是表示相对于以头戴式送受话器的位置及朝向为基准的头戴式送受话器坐标系的、与虚拟空间内的坐标系之间的差值的信息。

指针判定单元665判定所输入的操作指针的当前位置是否与所输入的各声源的当前位置的任一个相对应。即，指针判定单元665判定用户的脸朝向哪个声源。

在此，位置所对应的声源是指以操作指针的当前位置为中心的规定范围内的声源。另外，当前位置不仅包含操作指针的当前的位置，而且还包含刚刚之前的位置。下面，将位置所对应的声源，适宜地称为“所选择的声源”。另外，分配了所选择的声源的接收语音消息是指“所选择的接收语音消息”。

此外，对于在刚刚之前的時间内该位置是否在以操作指针的位置为中心的规定的范围内，例如可如下进行判定。首先，指针判定单元665按每个声源对从成为以操作指针的位置为中心的规定的范围内时起的经过時间进行计数。而且，指针判定单元665对开始计数的每个声源依次判定该计数值是否成为规定的阈值以下。而且，指针判定单元665在计数值为规定的阈值以下的期间，将相应的声源判定为是其位置为上述规定的范围内的声源。由此，指针判定单元665对于一旦被选择的接收语音消息使该被选择的状态持续一定时间，实现对选择对象的锁定功能。

而且，指针判定单元665将所选择的声源的识别信息与所选择的接收语音消息一同输出到选择声源记录单元666。另外，指针判定单元665将操作指针的当前位置输出到音响指针生成单元667。

选择声源记录单元666将所输入的接收语音消息与所输入的识别信息建立对应关系地暂时记录于存储单元640。

音响指针生成单元667基于所输入的操作指针的当前位置生成音响指针。具体而言，音响指针生成单元667生成从操作指针的在虚拟空间中的当前位置输出指针音那样的语音数据，且将所生成的语音数据输出到语音合成单元668。

语音合成单元668生成在所输入的接收语音消息上重叠了所输入的指针音的语音数据而得到的合成语音数据并输出到播放单元650。此时，语音合成单元668基于所输入的头戴式送受话器倾斜信息将虚拟空间的坐标变换为成为基准的头戴式送受话器坐标系的坐标，由此进行各声源的音像定位。由此，语音合成单元668生成可从各自设定的位置听到各声源及语音指针那样的合成语音数据。

图3是表示合成语音数据给用户带来的声场感觉之一例的示意图。

如图3所示，以用户710在初始状态下的头部的朝向为基准，决定操作指针720的位置，且将虚拟空间的坐标系730的朝向固定于实空间。在此，虚拟空间的坐标系730以用户710的初始位置的后面面对的方向为X轴方向，以右方向为Y轴，以上方向为轴向。

另外，例如在同心圆上按用户710的左前45度方向、正面方向、右前45度方向的顺序，以均一的间隔配置有声源741～743。而且，图3中，与第1～第3接收语音消息对应地，按顺序配置有声源741～743。

在此，假定头戴式送受话器坐标系750为以头戴式送受话器的左右耳机的位置为基准的坐标系。即，头戴式送受话器坐标系750为固定于用户710头部的位置及朝向的坐标系。因此，头戴式送受话器坐标系750的朝向跟踪用户710在实空间中的朝向的变化。在此，因此，对用户710，赋予以与实空间中的头部的朝向的变化相同的方式，头部的朝向在虚拟空间中也发生变化的声场感觉。图3的例中，用户710使头部从其初始位置711向右旋转45度。因此，各声源741～743以用户710为中心相对地向左旋转45度。

另外，音响指针760总是配置于用户的脸正面。因此，对用户710赋予从自己自脸部面对的方向听到的语音(图3中为第3接收语音消息)的方向听到音响指针760那样的声场感觉。换言之，对用户710通过音响指针760反馈选择了哪个声源。

图2的操作指令控制单元669在从操作输入单元630输入的操作信息为对所选择的声源的决定操作时，对操作指令进行待机。而且，操作指令控制单元669在从语音输入输出单元620输入的语音数据为语音指令时，获取相应的操作指令。而且，操作指令控制单元669发布所获取的操作指令，且指示其它各部进行与该操作指令相应的处理。

另外，操作指令控制单元669在所输入的语音数据为发送语音消息时，将发送语音消息通过通信接口单元610向语音消息管理服务器300发送。

通过这样的构成，控制单元660可以将接收语音消息立体地配置于虚拟空间，且可利用音响指针使用户确认选择了哪个声源，并且接受对声源的操作。

其次，说明终端装置100的动作。

图4是表示终端装置100的动作之一例的流程图。在此，着眼于在成为操作模式时进行的操作模式处理进行说明。

首先，在步骤S1100中，指针位置计算单元664将操作信息所表示的头部的朝向的方位作为初始值设置于(记录于)存储单元640。该初始值为构成实空间的坐标系、虚拟空间的坐标系及头戴式送受话器坐标系间的对应关系的基准的值，是作为检测到用户的动作后的初始值使用的值。

然后，在步骤S1200中，操作输入单元630开始依次从操作输入装置500获取操作信息。

然后，在步骤S1300中，声源插入控制单元661通过通信接口单元610接收语音消息，判断应在终端播放的语音消息(接收语音消息)中是否有增减。即，声源插入控制单元661判断有无新的应播放的语音消息、和是否存在播放已结束的语音消息。声源插入控制单元661在接收语音消息有增减的情况下(S1300：“是”)，进入步骤S1400。另外，声源插入控制单元661在接收语音消息没有增减的情况下(S1300：“否”)，进入步骤S1500。

在步骤S1400中，声源配置计算单元662进行声源向虚拟空间的再配置，进入步骤S1600。此时，优选，声源配置计算单元662进行如下的配置：根据接收语音消息的音质判定其它用户的性別，使同性的其它用户的语音离开而配置等，以使容易区分开地听清语音。

另外，在步骤S1500中，指针位置计算单元664根据最新的操作信息和刚刚之前的操作信息之间的比较，判断头部的朝向有无变化。指针位置计算单元664在头部的朝向有变化的情况下(S1500：“是”)，进入步骤S1600。另外，指针位置计算单元664在头部的朝向无变化的情况下(S1500：“否”)，进入步骤S1700。

在步骤S1600中，终端装置100执行计算各声源的位置及指针位置的位置计算处理，并进入步骤S1700。

图5是表示位置计算处理之一例的流程图。

首先，在步骤S1601中，指针位置计算单元664根据操作信息计算应配置操作指针的位置。

然后，在步骤S1602中，指针判定单元665基于操作指针的位置和各声源的配置来判断是否存在所选择的声源。指针判定单元665在存在所选择的声源的情况下(S1602：“是”)，进入步骤S1603。另外，指针判定单元665在不存在所选择的声源的情况下(S1602：“否”)，进入步骤S1604。

在步骤S1603中，选择声源记录单元666将所选择的声源的识别信息及接收语音消息(包含元数据)记录于存储单元640，并进入步骤S1604。

此外，优选，音响指针生成单元667在选择了声源时，使音响指针的语音特性发生变化。另外，优选该语音特性变化可以与未选择声源的情况下的语音区分开来。

在步骤S1604中，指针判定单元665判断之前最近所选择的声源中是否有脱离选择的声源。指针判定单元665在有脱离选择的声源的情况下(S1604：“是”)，进入步骤S1605。另外，指针判定单元665在没有脱离选择的声源的情况下(S1604：“否”)，进入步骤S1606。

在步骤S1605中，选择声源记录单元666废弃脱离选择的声源的识别信息及接收语音消息的记录，并进入步骤S1606。

此外，优选，音响指针生成单元667在任一声源脱离选择时，通过音响指针的语音特性的变化等将该情况通知给用户。另外，优选，该语音特性变化可与任一声源被选择时的语音特性变化区分开来。

在步骤S1606中，指针位置计算单元664从操作信息中获取头戴式送受话器倾斜信息，并返回到图4的处理。

此外，指针位置计算单元664在计算应配置操作指针的位置及头戴式送受话器倾斜信息时，也可以将加速度进行积分，计算头部的相对于初始位置的相对位置，且使用该相对位置。但是，由于这样计算出的相对位置可能包含很多误差，所以优选，后级的指针判定单元665使操作指针的位置和声源位置之间具有很大的匹配宽度。

在图4的步骤S1700中，语音合成单元668输出将由音响指针生成单元667生成的音响指针与接收语音消息重叠而成的合成语音数据。

然后，在步骤S1800中，操作指令控制单元669根据操作信息判断是否进行了对所选择的声源的决定操作。操作指令控制单元669例如在存在在存储单元640中记录有识别信息的声源时，将该声源判定为所选择的声源。操作指令控制单元669在进行了对所选择的声源的决定操作的情况下(S1800：“是”)，进入步骤S1900。另外，操作指令控制单元669在未进行对所选择的声源的决定操作的情况下(S1800：“否”)，进入步骤S2000。

在步骤S1900中，操作指令控制单元669获取成为决定操作对象的声源的识别信息。以下，将成为决定操作对象的声源称为“所决定的声源”。

此外，在以操作指令的输入作为决定操作的情况下，不需要步骤S1800、S1900的处理。

然后，在步骤S2000中，操作指令控制单元669判断是否存在用户的输入语音。操作指令控制单元669在存在输入语音的情况下(S2000：“是”)，进入步骤S2100。另外，操作指令控制单元669在不存在输入语音的情况下(S2000：“否”)，进入后述的步骤S2400。

在步骤S2100中，操作指令控制单元669判断输入语音是否是语音指令。例如通过使用语音识别引擎进行对语音数据的语音识别处理，并在预先登记的语音指令的一览表中对识别结果进行检索，由此进行该判断。也可以由用户通过手动将语音指令的一览表登记于语音控制装置600中。另外，也可以由语音控制装置600通过通信网络200从外部的信息服务器等获取语音指令的一览表。

此外，通过上述的锁定功能，用户不需要在选择了任一接收语音消息后，直接急忙发出语音指令。即，用户可以在时间上有富裕地发出语音指令。另外，即使在选择了任一接收语音消息之后马上有声源的配置变更，也能够保持该已选择的状态。因此，即使有这样的声源的配置变更，用户也不必再次重新选择接收语音消息。

操作指令控制单元669在输入语音不是语音指令的情况下(S2100：“否”)，进入步骤S2200。另外，操作指令控制单元669在输入语音为语音指令的情况下(S2100：“是”)，进入步骤S2300。

在步骤S2200中，操作指令控制单元669将输入语音作为发送语音消息向语音消息管理服务器300发送，并进入步骤S2400。

在步骤S2300中，操作指令控制单元669获取语音指令所表示的操作指令，且对其它各单元指示进行与该操作指令相应的处理，并进入步骤S2400。例如，在用户输入的语音为“停止”的情况下，操作指令控制单元669使所选择的语音消息的播放停止。

然后，在步骤S2400中，操作模式判别单元663通过基于动作的模式变更操作等判断是否指示了结束操作模式处理。操作模式判别单元663在未被指示结束操作模式处理的情况下(S2400：“否”)，返回到步骤S1200，获取下一操作信息。另外，操作模式判别单元663在被指示了结束操作模式处理的情况下(S2400：“是”)，结束操作模式处理。

通过这样的动作，终端装置100可以将声源配置于虚拟空间，根据头部的朝向接受操作指针的移动操作及决定操作，根据语音指令接受有关声源的处理的指定。另外，终端装置100此时可以利用音响指针表示操作指针的当前位置。

如上所述，本实施方式的语音控制装置利用由与周围的音响状态的差异表示的音响指针对用户提示操作指针的当前位置。由此，本实施方式的语音控制装置可使用户不使用视觉地确认选择了立体地配置于虚拟空间的声源的哪一个的同时进行操作。

此外，语音控制装置也可以通过语音指令输入以外的方法进行操作指令的输入，例如也可以使用用户身体的动作进行。

在使用动作的情况下，语音控制装置例如只要基于从安装于用户的手指或胳膊的3D运动传感器输出的加速度信息及方位信息等检测用户的动作即可。而且，语音控制装置只要判断检测出的动作与预先与操作指令建立对应关系地登记的动作的哪个相符即可。

该情况下，例如可考虑将3D运动传感器内置于戒指或手表等装饰品内。另外，该情况下，操作模式判别单元也可以以特定的动作为触发，向操作模式处理转移。

此外，在动作的检测中，例如记录一定时间的操作信息，获取加速度或方位的变化的模式。另外，例如可以根据加速度或方位的变化为极端的情况、或根据规定的时间以上未发生加速度或方位的变化，来检测某动作的结束。

另外，语音控制装置也可以从用户接受通过语音指令进行操作指令的输入的第一操作模式、和通过动作进行操作指令的输入的第二操作模式之间的切换。

这种情况下，操作模式判别单元例如只要基于进行了头部点头的动作和摆手的动作中的哪个来判断选择了哪个动作模式即可。另外，操作模式判别单元也可以从用户预先接受并存储操作模式的指定的方法。

另外，音响指针生成单元也可以在所选择的声源存在的期间，减小指针音的音量或停止(静音)其输出。另外，相反，音响指针生成单元在所选择的声源存在的期间，也可以增大指针音的音量。

另外，音响指针生成单元也可以不使用周期性输出的指针音而使用仅在新选择了声源时输出的指针音。特别是，在这种情况下，音响指针生成单元也可以将指针音设为“捕获！”等元数据信息的读出语音。由此，通过音响指针760对用户710反馈具体选择了哪个声源，容易掌握指令发布的定时。

另外，如上所述，音响指针也可以采用与操作指针的当前位置相对应的声源的语音和其它语音的差异(语音特性变化)的方式。

该情况下，音响指针部例如对所选择的接收语音消息以外的接收语音消息利用低通滤波器等进行屏蔽处理，截断其高频分量。由此，对于用户而言，未被选择的接收语音消息成为模糊了的听取方式，仅所选择的接收语音消息听起来音质良好且清晰。

或者，音响指针部对于所选择的接收语音消息，使其音量相对増大、或使所选择的接收语音消息和未选择的接收语音消息之间在音程或播放速度上具有差异。由此，语音控制装置可以使处于操作指针的位置的声源的语音，以比其它声源的语音更清晰，相对更清楚地听到的方式突出。

这样，即使在音响指针采用接收语音消息的语音特性变化的方式的情况下，用户710也容易把握具体选择了哪个声源。

另外，音响指针也可以采用将指针音的输出和接收语音消息的语音特性变化组合的方式。

另外，音响指针生成单元也可以从用户接收音响指针的种类的选择。另外，音响指针生成单元也可以预先准备多个指针音或语音特性变化的种类，从用户接受要使用的种类的选择或进行随机选择。

另外，优选，声源配置计算单元不将多个语音消息设定于一个声源，而以可以区分开地听清的程度将多个声源分开配置，但不一定限定于此。优选，在将多个语音消息设定于一个声源的情况下、或将多个声源配置于相同或接近的位置的情况下，音响指针生成单元将该情况通过语音通知给用户。

另外，在这种情况下，指针判定单元也可以进一步从用户接受要选择多个语音数据的哪个的指定。指针判定单元可以使用例如预先登记的语音指令或动作进行该指定的接受或选择对象的切换操作。例如，优选，将选择对象的切换操作与否定当前的选择对象的动作接近的、快速摆头的动作建立对应关系。

或者，音响指针生成单元也可以接受对多个语音消息的同时的决定操作。

另外，语音控制装置也可以不在接收语音消息的播放中而是在该播放结束后，接受对声源的选择操作、决定操作及操作指令。这种情况下，声源插入控制单元即使在接收语音消息不再被接收后，也将声源的配置保持一定时间。另外，在这种情况下，由于接收语音消息的播放已结束，所以优选音响指针生成单元生成取指针音等规定的语音方式的音响指针。

另外，声源的配置及音响指针的位置不限定于上述的例子。

声源配置计算单元例如也可以在与头部成水平的平面以外的位置配置声源。例如，声源配置计算单元也可以在铅直方向(图3中虚拟空间的坐标系730的Z轴方向)不同的位置配置多个声源。

另外，声源配置计算单元也可以将虚拟空间在铅直方向(图3的虚拟空间的坐标系730的Z轴方向)分层，对每层配置一个或多个声源。而且，这种情况下，指针位置计算单元接受对层的选择操作和对每层的声源的选择操作。与已说明的对声源的选择操作相同，只要使用头部的上下方向的朝向、动作及语音指令等实现对层的选择操作即可。

此外，声源配置计算单元也可以与其它用户的实际位置配合决定对各接收语音消息分配的声源的配置。在这种情况下，声源配置计算单元例如基于GPS(global positioning system，全球定位系统)信号计算其它用户相对于用户的相对位置，在与该相对位置对应的方向配置对应的声源。此时，声源配置计算单元也可以以与其它用户相对于用户的距离相应的距离，配置对应的声源。

另外，音响指针生成单元也可以在可识别与哪个声源相对应的范围内将音响指针配置在铅直方向与声源不同的位置。另外，在声源被配置于水平面以外的面的情况下，音响指针生成单元同样也可以在该铅直方向与声源不同的位置配置音响指针。

另外，在本实施方式中，未特别进行说明，但语音控制装置或终端装置也可以具备图像输出单元，将声源配置或操作指针进行图示。在这种情况下，用户可以在可注视画面时一并参照图像信息的同时，进行对声源的操作。

另外，指针位置计算单元也可以基于头戴式送受话器的3D运动传感器的输出信息和安装于用户的躯体上的装置(例如终端装置自身)的3D运动传感器的输出信息设定音响指针的位置。这种情况下，指针位置计算单元可以基于安装于躯体上的装置的朝向和头戴式送受话器的朝向的差值来计算头部的朝向，提高音响指针的朝向相对于头部的朝向的追随精度。

另外，指针位置计算单元也可以与用户身体的朝向相对应地使操作指针移动。在这种情况下，指针位置计算单元可以将例如在用户的躯体、或用户的车座、乘用车的座位等与用户的身体朝向一致的那样的物体上安装的3D运动传感器的输出信息作为操作信息使用。

另外，语音控制装置也可以不必从用户接受指针的移动操作。在这种情况下，例如，指针位置计算单元使指针位置有规则地或随机地移动。而且，用户只要通过在指针与所希望的声源对上时进行决定操作或操作指令的输入，从而进行声源的选择操作即可。

另外，语音控制装置也可以基于手的动作等、头部朝向以外的信息使指针移动。

在这种情况下，虚拟空间的坐标系的朝向不必一定要固定于实空间。因此，虚拟空间的坐标系也可以固定于头戴式送受话器的坐标系。即，虚拟空间也可以固定于头戴式送受话器。

下面，说明将虚拟空间固定于头戴式送受话器的情况。

在这种情况下，指针位置计算单元不需要生成头戴式送受话器倾斜信息。另外，语音合成单元不需要在各声源的音像定位中使用头戴式送受话器倾斜信息。

另外，指针位置计算单元将操作指针的移动范围仅限定于虚拟空间的声源位置，根据操作信息使操作指针在声源间移动。此外，此时，指针位置计算单元也可以对加速度进行积分，计算手的相对于初始位置的相对位置，基于该相对位置决定操作指针的位置。但是，由于在这样计算出的相对位置中可能含有很多误差，所以优选后级的指针判定单元使操作指针的位置和声源位置之间具有很大的匹配宽度。

图6是表示将虚拟空间固定于头戴式送受话器的情况下的合成语音数据给用户带来的声场感觉之一例的示意图，与图3相对应。

如图6所示，不依赖于用户710的头部的朝向，而将虚拟空间的坐标系730固定于头戴式送受话器坐标系750。因此，对用户710赋予将对第1～第3接收语音消息分配的声源741～743的位置相对于头部固定那样的声场感觉。例如，用户710总是从正面听到第2接收语音消息。

指针位置计算单元664对于操作指针720例如基于从安装于用户710的手上的3D运动传感器输出的加速度信息检测手摆动的方向。而且，指针位置计算单元664使操作指针720沿手摆动的方向向下一声源移动。而且，音响指针生成单元667在操作指针720的方向配置音响指针760。因此，对用户710赋予自己从操作指针720的方向听到音响指针760那样的声场感觉。

此外，在基于头部的朝向以外的信息进行指针的移动的情况下，用于该操作的3D运动传感器也可以装备于包括语音控制装置的终端装置本身。另外，在这种情况下，也可以在终端装置的图像显示单元显示实空间的图像，且在其上重叠显示配置有声源的虚拟空间。

此外，操作输入单元也可以接受对指针的当前位置的临时决定操作，作为对临时决定操作的反馈输出音响指针。在此，临时决定操作是对所选择的声源的决定操作的前一操作，在临时决定操作的阶段，不执行上述的指定了声源的各种处理。在这种情况下，用户通过对临时决定操作的反馈确认选择了所希望的声源后，进行最终的决定操作。

即，也可以不是伴随指针的移动持续输出音响指针，而是在进行了临时决定操作后才输出音响指针。由此，可以将音响指针的输出抑制在最小限，可以更容易听清接收语音消息。

另外，也可以在虚拟空间移动声源位置。在这种情况下，语音控制装置在声源每次移动时、或以短的周期重复进行更新，基于最新的声源位置判断各声源的位置和指针的位置之间的关系。

如以上说明的，本实施方式的语音控制装置是进行有关立体地配置于虚拟空间的声源的处理的语音控制装置，其具有：指针位置计算单元，决定所述虚拟空间中的选择位置即指针的当前位置；以及音响指针生成单元，其生成音响指针，所述音响指针通过与周围的音响状态的差异来表示所述指针的当前位置。而且，语音控制装置具有：声源配置计算单元，其将所述声源立体地配置于所述虚拟空间；语音合成单元，其生成将所述声源的语音及所述音响指针合成而得到的语音；操作输入单元，其接受对所述指针的当前位置的决定操作；以及操作指令控制单元，其在所述声源位于成为所述决定操作的对象的位置时进行指定了所述声源的所述处理。由此，本实施方式不使用视觉而能够确认选择了立体地配置于虚拟空间的声源的哪个。

在2011年3月8日提出的日本专利申请特愿2011-050584号中包含的说明书、附图及摘要的公开内容全部引用于本申请。

工业实用性

本发明的语音控制装置及语音控制方法作为不使用视觉而可以确认选择了立体地配置于虚拟空间的声源的哪个的、语音控制装置及语音控制方法是有用的。即，本发明对于例如手机或音乐播放器等具有播放语音的功能的各种设备有用，在这些设备的制造、销售、提供、利用的产业中可以经营性、持续性、反复性地利用。

Claims

1.语音控制装置，其进行有关立体地配置于虚拟空间的声源的处理，具有：

指针位置计算单元，其决定所述虚拟空间中的选择位置即指针的当前位置；以及

音响指针生成单元，其生成音响指针，所述音响指针利用与周围的音响状态的差异表示所述指针的当前位置。

2.如权利要求1所述的语音控制装置，

所述音响指针包括从所述指针的当前位置输出的规定的声音。

3.如权利要求1所述的语音控制装置，

所述音响指针包括与所述指针的当前位置对应的所述声源的语音与其它语音的差异。

4.如权利要求3所述的语音控制装置，

所述语音的差异包括所述声源的语音比所述其它语音更清晰。

5.如权利要求1所述的语音控制装置，具有：

声源配置计算单元，其将所述声源立体地配置于所述虚拟空间；

语音合成单元，其生成对所述声源的语音及所述音响指针进行合成而得到的语音；

操作输入单元，其接受对所述指针的当前位置的决定操作；

操作指令控制单元，其在所述声源位于成为所述决定操作对象的位置时，进行指定了所述声源的所述处理。

6.如权利要求5所述的语音控制装置，

所述操作输入单元还接受对所述指针的移动操作。

7.如权利要求5所述的语音控制装置，

所述虚拟空间是以收听所述声源的语音的用户的在实空间中头部的朝向的初始状态为基准将虚拟空间的朝向固定于所述实空间而得到的空间。

8.如权利要求7所述的语音控制装置，

所述操作输入单元获取所述虚拟空间中的所述用户头部的当前的正面方向，作为所述指针的当前位置的方向。

9.如权利要求5所述的语音控制装置，

所述当前位置包括所述指针的当前的位置及刚刚之前所在的位置。

10.如权利要求5所述的语音控制装置，具有：

语音输入部，其输入所述用户的发话语音；

通信接口单元，其将所输入的所述发话语音的语音数据发送到其它装置，且接收从所述其它装置发送的语音数据，

所述声源配置计算单元对接收到的所述语音数据的各发送源分配所述声源，

所述语音合成单元将接收到的各语音数据转换为来自对应的声源的语音数据。

11.如权利要求5所述的语音控制装置，

所述操作输入单元接受对所述指针的当前位置的临时决定操作，

所述音响指针包括对所述临时决定操作的反馈。

12.语音控制方法，进行有关立体地配置于虚拟空间的声源的处理，包括：

决定所述虚拟空间中的选择位置即指针的当前位置的步骤；以及

生成音响指针的步骤，所述音响指针利用与周围的音响状态的差异表示所述指针的当前位置。