CN109983784B

CN109983784B - 信息处理装置、方法和存储介质

Info

Publication number: CN109983784B
Application number: CN201780069477.7A
Authority: CN
Inventors: 望月大介
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-11-16
Filing date: 2017-10-17
Publication date: 2022-02-01
Anticipated expiration: 2037-10-17
Also published as: EP3544320A1; US10986458B2; EP3544320A4; US20200053501A1; CN109983784A; JP2018082308A; WO2018092486A1

Abstract

一种信息处理装置，其设置有行为识别单元，声音数据选择单元以及声音信息生成单元，其中所述行为识别单元被配置成基于传感器信息识别用户的行为模式。所述声音数据选择单元被配置成选择与行为识别单元所识别的用户的行为模式对应的声音数据。所述声音信息生成单元生成多声道音频信息，该多声道音频信息基于由声音数据选择单元选择的声音数据，在用户周围的真实空间中对声源的声像进行定位。所述信息处理装置使得可以获得遵循用户行为中的质的变化的增强现实。

Description

信息处理装置、方法和存储介质

技术领域

本技术涉及增强现实技术的质量的改进。

背景技术

在可穿戴计算技术领域中，已知以下技术：当穿戴可穿戴计算机的用户移动时，通过可穿戴计算机中包括的传感器装置来估计用户的空间位移的量(例如，参见专利文献1)。

专利文献1也公开了关于多声道音频信息的生成的技术。专利文献1中所描述的技术是合成音频，使得声音可以被感知为如同该声音是从一空间位置发出的一样，并且特别是合成音频使得声音可以被感知为即使在用户改变位置或方向时发出该声音的空间位置也不改变一样。

专利文献2公开了以下技术：当人做动作时，通过使用另外人的过去真实动作的信息来显示与该另外人的过去动作的信息相关的虚拟对象。专利文献2公开的应用示例示出了以下示例：在跑步期间在眼镜式显示装置上显示跑相同路线的其他人的跑步图像。

引用列表

专利文献

专利文献1：日本专利申请特许公开第2013-005021号

专利文献2：日本专利申请特许公开第2013-167941号

发明内容

技术问题

在通过使用可穿戴计算机向用户提供增强现实的技术领域中，期望提供更逼真的呈现。然而，上述示例并没有关注用户动作的内容来提供增强现实。例如，即使当动作的内容从“行走”动作变化为“跑步”动作或从“轻疲劳度”运动变化为“重疲劳度”运动时，没有执行遵循动作中的质的变化的输出。

鉴于上述情况，本技术的目的是提供一种使得可以实现遵循用户动作中的质的变化的增强现实的信息处理装置。

问题的解决方案

为了实现上述目的，根据本技术的一方面的信息处理装置包括：动作识别单元；音频数据选择单元；以及音频信息生成单元。

动作识别单元被配置成基于传感器信息识别用户的动作模式。

音频数据选择单元被配置成选择与动作识别单元所识别的用户的动作模式对应的音频数据。

音频信息生成单元，其基于由音频数据选择单元选择的音频数据来生成用于在用户周围的真实空间中对声源的声像进行定位的多声道音频信息。

按照根据本技术的一方面的信息处理装置，可以向用户提供遵循用户动作中的质的变化的增强现实。

音频数据选择单元被配置成选择音频数据作为从要放置在真实空间中的虚拟对象发出的音频。

在这种情况下，音频信息生成单元可以被配置成通过生成多声道音频信息执行声像定位，虚拟对象通过声像定位被放置在声源的位置处。

音频数据选择单元可以被配置成，在作为动作识别单元的识别结果，要选择的音频数据被改变时，选择与从变化前的音频数据到变化后的音频数据的音频数据切换模式对应的音频数据以及变化后的音频数据。

音频数据选择单元可以被配置成，在作为动作识别单元的识别结果，要选择的音频数据被改变时，在存在与用户的动作模式对应的多条音频数据的情况下选择与和虚拟对象关联的信息相匹配的音频数据。

信息处理装置还包括位移计算单元，其基于传感器信息输出包括用户的位置的相对变化的用户位移。

音频信息生成单元可以被配置成，基于由位移计算单元输出的用户位移来调制由音频数据选择单元选择的音频数据，从而生成多声道音频信息。

音频信息生成单元可以被配置成调制由音频数据选择单元选择的音频数据，使得声像通过多声道音频信息而定位的声源被放置在遵循位移计算单元输出的用户位移的位置处，从而生成多声道音频信息。

音频信息生成单元可以被配置成生成多声道音频信息，使得声像通过多声道音频信息而定位的声源以一时延来遵循空间中的位置，该位置从由用户位移标识的用户的位置开始。

音频信息生成单元可以被配置成，基于由位移计算单元输出的用户位移以及从外部获得的包括建筑物的位置坐标的地图信息来生成多声道音频信息，使得虚拟对象不被放置在地图信息中包括的建筑物的位置坐标的范围中。

音频信息生成单元可以被配置成，在地图信息中包括的建筑物的位置坐标的范围与虚拟对象被放置的位置交叠的情况下，生成包括碰撞声的多声道音频信息。

信息处理装置还包括状态分析单元，其被配置成分析用户的状态，所述状态能够根据传感器信息和动作识别单元所识别的用户的动作模式中的一个而变化。

音频数据选择单元可以被配置成选择与用户的动作模式对应的音频数据以及与状态分析单元所分析的用户的状态对应的音频数据。

音频信息生成单元可以被配置成将音频数据选择单元所选择的与用户的动作模式对应的音频数据与对应于用户的状态的音频数据进行合成，从而基于合成的音频数据生成多声道音频信息。

状态分析单元可以被配置成根据传感器信息和动作识别单元所识别的用户的动作模式中的一个来分配每单位时间的疲劳度，并且积累所分配的每单位时间的疲劳度，从而计算疲劳度作为用户的状态。

音频数据选择单元可以被配置成，在动作识别单元所识别的用户的动作模式持续超过预定阈值的情况下，选择与对应于动作识别单元所识别的用户的动作模式的音频数据不同的音频数据。

根据本技术的另一方面的信息处理方法，包括：动作识别步骤；音频数据选择步骤；以及音频信息生成步骤。

在动作识别步骤中，基于传感器信息识别用户的动作模式。

在音频数据选择步骤中，选择与动作识别步骤所识别的用户的动作模式对应的音频数据。

在音频信息生成步骤中，基于由音频数据选择步骤选择的音频数据，生成用于在用户周围的真实空间中对声源的声像进行定位的多声道音频信息。

根据本技术的又一方面的程序，其使计算机执行以下步骤：动作识别步骤；音频数据选择步骤；以及音频信息生成步骤。

在动作识别步骤中，基于传感器信息识别用户的动作模式。

本发明的有益效果

如上所述，根据本技术，可以实现遵循用户动作中的质的变化的增强现实。

应该注意的是，上述效果不一定是限制性的。除了上述效果之外或代替于上述效果，可以运用本说明书中所述的任意效果或可从本说明书领会的其他效果。

附图说明

图1是示出作为根据本技术实施方式的信息处理装置的输出结果，向用户提供的增强现实的示例的图(部分1)。

图2是示出作为根据本技术实施方式的信息处理装置的输出结果，向用户提供的增强现实的示例的图(部分2)。

图3是示出上述信息处理装置的外部配置的示例的图。

图4是示出上述信息处理装置的内部配置的示例的框图。

图5是示出由上述信息处理装置执行的处理流程的流程图。

图6是描述上述信息处理装置的音频数据选择单元的信息处理的图。

图7是描述上述信息处理装置的声像位置计算单元的信息处理的图。

图8是示出本技术的另外的实施方式的配置的示例的框图。

图9是示出本技术的另外的实施方式的配置的示例的框图。

具体实施方式

在下文中，参照附图将对本技术的优选实施方式进行详细地描述。应该注意的是由相同的附图标记表示具有基本相同的功能配置的部件，并且在本说明书和附图中将省略重复的描述。

注意，将按下述顺序给出描述。

1.根据本技术的实施方式的信息处理装置的概述

2.配置

2-1.外部配置

2-2.内部配置

3.操作

4.结论

5.其他实施方式

5-1.另外的实施方式1

5-2.另外的实施方式2

5-3.另外的实施方式3

5-4.另外的实施方式4

5-5.另外的实施方式5

5-6.另外的实施方式6

5-7.另外的实施方式7

6.附录

<1.根据本技术的实施方式的信息处理装置的概述>

图1和图2各自是示出了作为根据这个实施方式的信息处理装置1的输出结果、向用户提供的增强现实的示例的图。信息处理装置1输出多声道音频信息，在该多声道音频信息中，声像被定位成使得能够从用户周围的特定方向听到声音。通过例如调整进入左右耳朵中的每个耳朵的声音音量来执行声像定位。

图1的部分(a)示出作为虚拟对象的示例的虚拟狗在用户前方50cm处正在行走的状态。狗的脚步声和呼吸声是多声道的，并且调整进入左右耳朵的声音的音量或调整效果，从而向用户提供如图所示的增强现实。在此，改变多声道音频信息中左右音量之间的平衡，产生一种如同虚拟对象在用户左后方100cm的位置处正在行走的感觉，如图1的部分(b)中所示。

这样的声像定位技术使用户能够一定程度地感受虚拟对象的存在。同时，如果在用户的动作发生质的变化或用户的状态发生变化时从虚拟对象发出的声音没有变化，那么这是不自然的。例如，在用户的状态从行走状态(图2的部分(a))改变为跑步状态(图2的部分(b))的情况下，如果模拟为狗的虚拟对象以与行走时的呼吸声相同的呼吸声跟随用户，那么这是不自然的。如果虚拟对象在同用户跑了很长时间之后似乎一点也不疲劳，那么这是不自然的。

鉴于上述，在如下所述的这个实施方式中，为了提供具有更高质量的增强现实，增强现实遵循用户动作的质的变化。

在此，质的变化包括用户动作的类型(“跑步”和“行走”等)的变化。在现有可穿戴计算中，通过例如绝对位置测量的方法，系统已经能够领会用户的动作是“正在移动”。然而，在动作从“行走”动作类型改变为“跑步”动作类型的情况下，对质的变化的跟进不充分。由于这个原因，已经存在以下可能性：提供了使用户感觉不舒适的增强现实。

作为示例在虚拟对象被视为虚拟存在的角色的情况下，要向用户提供的增强现实需要根据角色的动作类型而改变。例如，存在以下可能性：如果角色在跑步时的脚步与角色在行走时的脚步不同(尽管两者都是“脚步”)，那么用户就感觉不舒适。

在这个实施方式中，向用户提供通过以下方式来遵循用户动作的质的变化的增强现实：基于从传感器101输入的传感器信息识别用户的动作模式，选择与所识别的动作模式对应的音频数据，然后移位所选择的音频数据。

注意在下文的描述中，虚拟狗被用作虚拟对象的示例。此外，作为示例将描述通过穿戴信息处理装置1而使得用户能够与虚拟狗一起行走的应用作为整个应用。

至此已经描述了根据这个实施方式的信息处理装置1的概述。接下来，将参照图3和图4对信息处理装置1的配置进行描述。

<2-1.外部配置>

图3是示出根据这个实施方式的信息处理装置的外部配置的示例的图。如图3所示，信息处理装置1例如是颈挂式可穿戴计算机。如图3所示，颈挂式信息处理装置1整体上具有马蹄形状，并且用户通过从脖子后侧悬挂来穿戴它。

此外，如图3所示，信息处理装置1包括音频输出单元109和多种传感器101。音频输出单元109再现音频数据。特别地，根据这个实施方式的扬声器15再现已经对其执行了声像定位处理的虚拟对象的音频信号，这使用户感知虚拟对象仿佛该虚拟对象真实地存在于真实空间中一样。

<2-1.内部配置>

图4是示出根据这个实施方式的信息处理装置的内部配置的示例的图。如图4所示，信息处理装置1包括作为硬件的中央处理单元(在下文中，称为CPU)100，传感器101，存储单元107，以及音频输出单元109。通过软件程序进行的信息处理，CPU 100被配置为具有图4所示的各个功能块。

传感器101被示出为信息处理装置1的各种传感器装置组的抽象层。传感器装置的具体示例包括检测纵向、水平方向和竖直方向三个方向上的加速度的加速度传感器，检测在三个方向上的绕轴速度的陀螺仪传感器，测量大气压力的大气压力传感器，以及检测地磁的方向传感器。用于在GPS(全球定位系统)、移动通信系统、或无线局域网中接收信号并且检测信息处理装置1的位置信息(在下文中，称为“绝对位置信息”)的机制可以被视为构成传感器101的一种传感器装置组。另外，传感器101的特定示例包括检测用户的脉搏和体温以及体温的上升的传感器装置，以及用于输入声音的麦克风。注意从传感器101向CPU100输入的信息将被称为传感器信息。

存储单元107包括非易失性存储装置，例如电可擦除可编程只读存储器(EEPROM)。存储单元107存储多种类型的音频数据。

音频输出单元109是具有将多声道音频信息作为声波而输出的功能的装置，该多声道音频信息用于在用户周围的真实空间中定位声源的声像，所述多声道音频信息由音频信息生成单元108生成。音频输出单元109的具体示例可以包括如图3所示形式的扬声器。

CPU 100是信息处理装置1的算术处理装置。CPU 100不一定是信息处理装置1的主算术处理装置。CPU 100可以包括用于信息处理装置1的辅助装置。CPU 100执行存储在存储单元107中的软件程序或从外部下载的软件程序。因此，CPU 100被配置为包括具有下述功能的动作识别单元102，疲劳度计算单元103，音频数据选择单元104，位移计算单元105，声像位置计算单元106，以及音频信息生成单元108。

动作识别单元102识别用户动作的类型，作为用户动作模式的示例。

疲劳度计算单元103是分析用户的状态并且计算用户的疲劳度的状态分析单元的示例。

音频数据选择单元104基于由动作识别单元102识别的用户动作的类型以及由疲劳度计算单元103计算的疲劳度来选择适当的音频数据。

位移计算单元105基于从传感器101输入的信息，计算在时间T0与稍后时间Tn之间发生的用户的空间位移。

声像位置计算单元106基于由位移计算单元105计算的用户位移，计算要叠加在真实空间中的虚拟对象应当在真实空间中定位的位置。

音频信息生成单元108通过调制由音频数据选择单元104选择的音频数据，生成用于在用户周围的真实空间中定位声源的声像的多声道音频信息。在调制时，由声像位置计算单元106设定的声像位置被用作参数。

<3.操作>

图5是示出根据这个实施方式的信息处理装置执行的处理流程。在下文所述的图5所示处理的描述中，除非另外指出，否则CPU 100是操作的主体。首先，CPU 100获取传感器信息并且将其输入至各个单元(S101)。

接下来，动作识别单元102基于从传感器101输入的信息，识别用户的动作类型(用户的动作模式的示例)(S102)。识别动作类型的信息处理的示例包括使用通过使确定装置进行机器学习而获得的经学习确定装置的方法，其中所述确定装置使用传感器信息作为输入并且使用动作类型作为输出。可替选地，可以使用基于传感器信息中包括的加速度的变化来确定静止/行走/跑步的方法。

接下来，疲劳度计算单元103计算用户的疲劳度(S103)。用户的疲劳度可以是积累的参数。在这种情况下，通过例如将每单位时间的疲劳度乘以动作的持续时间来计算关于疲劳度的参数，其中基于动作识别单元102所识别的动作类型来确定每单位时间的疲劳度。疲劳度可以是随时间逐渐减少的参数。

例如，作为每单位时间的疲劳度，可以使用以下值：通过使用动作识别单元102识别动作的结果而为每个动作类型分配的值，例如，-α为静止，+β为行走，以及+γ为跑步(α、β和γ是正值，β<γ)。注意在作为动作识别的结果、用户的动作类型改变的情况下，每单位时间的疲劳度可以相应地更新。可以通过对以这种方式分配的每单位时间的疲劳度进行积分来计算疲劳度。

疲劳度计算单元103可以通过更简单的方法计算疲劳度，而不是使用动作识别单元102的识别结果计算疲劳度。例如，根据由传感器101捕捉的用户的步数的累积或由加速度传感器或陀螺仪传感器检测的位移而直接计算的值可以被输出作为疲劳度。可替选地，基于检测用户的脉搏和体温以及体温的上升(传感器信息的示例)的传感器装置的输出的活动量可以被输出作为疲劳度。

接下来，音频数据选择单元104根据由动作识别单元102识别的用户的动作类型来选择音频数据(S104)。存储单元107预先存储与假定的动作类型对应的多个音频数据模式。多个音频数据模式可以与一个动作类型对应。在这种情况下，音频数据选择单元104随机选择多个音频数据模式中的一个。要注意的是，取决于动作类型，例如在输出音频可能使用户感觉不舒适的情况下，不一定需要选择音频数据。

例如，在动作识别单元102已经识别出用户动作是“行走”的情况下，音频数据选择单元104从预先存储在存储单元107中的虚拟对象的运动声音中随机选择与“行走”相关联的多条音频数据中之一。在虚拟对象是上文所述的虚拟狗的情况下，如果用户正在行走，选择使用户感觉好像虚拟狗正在以与他/她的步速相同的步速行走的音频。

类似地，动作识别单元102已经识别出用户的动作是“跑步”，音频数据选择单元104从预先存储在存储单元107中的虚拟对象的运动声音中随机选择与“跑步”相关联的多条音频数据中之一。此外，在动作识别单元102已经识别出用户的动作是“静止”的情况下，音频数据选择单元104从预先存储在存储单元107中的虚拟对象的运动声音中随机选择与“静止”相关联的多条音频数据中之一。在“静止”的情况下，其可以被配置为不选择音频数据。

例如，行走时的脚步或运动声音的音频数据与“行走”关联。跑步时的脚步或表示比行走时的呼吸更粗的呼吸的运动声音的音频数据与“跑步”关联。

音频数据选择单元104还根据疲劳度计算单元103计算的疲劳度来选择音频数据(S104)。音频数据选择单元104通过预定的阈值将疲劳度分为“大疲劳度”和“小疲劳度”。在确定疲劳度是“大疲劳度”的情况下，音频数据选择单元104从预先存储在存储单元107中的虚拟对象的运动声音中随机选择与“大疲劳度”相关联的多条音频数据中之一。同时，在确定疲劳度是“小疲劳度”的情况下，音频数据选择单元104从预先存储在存储单元108中的虚拟对象的运动声音中随机选择与“小疲劳度”相关联的多条音频数据中之一。

例如，呼吸短促的声音可以与“大疲劳度”关联。此外，可以将疲劳度划分为三个或更多个级别，例如大级别、中等级别和小级别，并且被理解。

图6是用于理解音频数据选择单元104的信息处理的说明图。图6的部分(a)中的两个表是示出了虚拟对象的运动声音等的音频数据与用户的动作类型之间的关联性的表，以及示出音频数据与疲劳度之间的关联性的表，这些预先存储在存储单元107中。

音频数据选择单元104选择与动作识别单元102所识别的用户动作类型对应的音频数据，根据由疲劳度计算单元103计算的疲劳度来选择音频数据，并且向后续阶段输出所选择的两条音频数据。在图6的部分(a)中，选择与“行走”对应的文件mb002.mp3以及与“大疲劳度”对应的文件tc001.mp3。所选择的多条音频数据被音频信息生成单元108合成。

作为音频数据选择单元104的音频数据选择的另一示例，可以预先准备图6的部分(b)中所示的表，在该表中，由动作识别单元102识别的动作类型以及由疲劳度计算单元103计算的疲劳度可被组合，并且可以执行选择所合成的音频数据的处理。在这种情况下，例如，作为与“行走”和“大疲劳度”对应的音频数据，可以放置“行走同时喘息的声音”。

作为音频数据选择单元104的音频数据选择的另一示例，存在以下示例：音频数据选择单元104动态地生成音频数据模式，并且动态生成的音频数据被选择。在这种情况下，由动作识别单元102识别的用户的动作是具有连续值的参数，并且由疲劳度计算单元103计算的疲劳度也是具有连续值的参数。如上所述，音频数据选择单元104可以基于以下参数组动态地生成音频数据：该参数组包括从“行走”时到“跑步”时的运动速度的程度和疲劳度的参数。

在已经选择了音频数据的情况下，音频数据选择单元104将成对的时间和选择结果存储在存储单元107中(S105)。由声像位置计算单元106等使用成对的时间和选择结果。

接下来，位移计算单元105计算从任意时间点开始的位移(S106)。此处所计算的位移表示信息处理装置1的空间位移。由于前提是用户穿戴信息处理装置1，所以在下文中，由位移计算单元105计算的位移将被称为“用户位移”。用户位移包括用户的空间位置上的相对改变，还包括取向、水平位置、竖直方向上的位置、以及其位移。

例如，可以通过对从传感器101输入的多条传感器信息当中的陀螺仪传感器的输出进行积分来计算取向的位移。另外，存在着通过地磁传感器的输出来获取绝对取向的方法。为了补偿地磁传感器的精度，可以对陀螺仪传感器的输出进行积分。通过这些方法，位移计算单元105计算用户位移中的取向(用户的取向，前方方向)。

位移计算单元105还计算水平位置的位移，作为用户位移之一。可以通过接收GPS卫星的无线电波的绝对位置测量来计算水平位置的位移，或通过与多个基站执行无线通信以确定绝对位置的方法来计算水平位置的位移。作为另一方法，位移计算单元105基于行进距离和行进方向(上述的取向的位移)来计算从一时间点开始的相对位置的位移。在此，存在着通过对加速度传感器的输出值进行积分来获得行进距离的方法。

此外，可以通过以下方式获得行进距离：根据加速度的变化来检测行走步伐，并且将与行走步伐对应的步长乘以步数。在这种情况下，作为步长，固定地使用平均步长，或通过例如根据水平移动距离与步数之间的关系计算用户的平均步长来设定步长。

位移计算单元105还计算高度的位移，作为用户位移之一。通过使用大气压力传感器的测量值的方法或计算与下述情况对应的高度的位移的方法，可以计算出高度方向(竖直方向)上的位移：在该情况下，认识到由动作识别单元102识别为“站”的用户动作类型和识别为“坐”的用户动作类型交替地重复。注意可以根据加速度传感器的测量值的变化模式来识别“站”/“坐”。

由位移计算单元105计算的用户位移被声像位置计算单元106使用。声像位置计算单元106计算从用户处观看的虚拟对象的相对位置(S107)。这个位置是在从音频输出单元109输出音频的情况下，由于最终合成的音频导致用户感觉到的感受上的声源(真实空间中的位置)。

作为声像位置计算单元106的信息处理，可以根据这个应用期望向虚拟对象给予的角色来选择合适的一个。在这种情况下，根据虚拟对象是什么角色或虚拟对象是什么，在声像位置计算单元106执行的计算方法中设定若干模式。在下文中，将参照图7描述两个典型的模式。图7是描述声像位置计算单元106的信息处理的示意图，并且示出了各个模式下的用户位移和虚拟对象的位移。

图7的部分(a)示出了以下声像位置计算模式：其中，虚拟对象的移动以一定时延追踪与用户位移的位置相同的位置。在该图中，垂直轴是包括三轴位置和三轴方向的六维信息的一维表示，作为位移的示例。水平轴表示时间t。

通过例如以下公式可以实现图7的部分(a)所示的可以追踪用户位移的声像位置计算模式。然而，X(t)表示用户位移，X'(t)表示虚拟对象的位移，并且K表示在虚拟对象开始移动之前的时延。K值越大，在虚拟对象开始移动之前的时间(延迟)越大。

X'(t)＝X(t-K)

在呈现随着用户的移动而移动的存在物的情况下，图7的部分(a)中所示的由虚拟对象追踪用户位移是有效的。例如，在期望向用户提供虚拟对象是人、机器人、汽车、动物等等的增强现实的情况下，即，声像定位位置以一定时延追踪与用户位移的位置相同的位置的情况下，可以采用这种声像位置计算模式。

图7的部分(b)示出了以下声像位置计算模式：其中，虚拟对象以相对于用户位移的一定时延移动，以直接去到用户存在的位置。这种声像位置计算模式可以通过例如以下公式来实现。然而，a表示虚拟对象的移动速度。a值越靠近，追上用户需要花费的时间越长。也就是说，移动缓慢。

X'(t)＝aX(t-K)+(1-a)X'(t-1)

例如在呈现穿过墙壁追随用户的存在物的情况下，图7的部分(b)中所示的由虚拟对象追踪用户位移是有效的。例如，它适合于表示作为虚拟对象的鬼魂角色。

声像位置计算单元106使用由上述信息处理计算的位移X'(t)或能够由此计算出的在时间t处的点，作为在时间t处的虚拟对象的位置。注意这个点可以被用作为基点，并且通过向这个基点添加预定的位置变化而获得的点可以用作为虚拟对象的位置。例如，在虚拟对象是狗角色的情况下，通过将由所述计算计算出的基点移至更靠近地面的更低位置而获得的点被输出。可替选地，在虚拟对象是鬼魂角色的情况下，为了产生飘浮的感觉，进行计算以便每隔一定间隔添加向上和向下的位置变化。根据这种配置，可以再现更逼真的角色移动。

此外，声像位置计算单元106针对以用户位置作为开始点情况下的角色的位置(X'(t)-X(t))，考虑用户的取向位移，来计算从用户处观看的角色的相对位置。作为声像定位方法，可以使用专利文献1中所描述的方法。

音频信息生成单元108执行用于在空间上布置音频信息的信息处理(S108)。信息处理将声像定位在与用户的相对位置处，例如以用户为中心与用户相距一距离或方向，并且例如可以使用专利文献1中所描述的方法。

音频信息生成单元108使用由音频数据选择单元104选择的音频数据作为要用于输出的音频信息。然而，在声像位置计算中存在延迟的情况下，使用在参考用户位置时的所选择的音频数据。也就是说，在由计算公式X'(t)＝X(t-K)计算声像位置的情况下，在时间(t-K)处选择的音频数据被在时间t处使用。音频信息生成单元108通过音频数据选择单元104提取并使用与时间信息相关联地存储在存储单元107中的音频数据。

此外，音频信息生成单元108将声像位置计算单元106基于位移计算单元105输出的用户位移而计算的位置指定作为由于输出的音频信息导致用户感觉到的感受上的声源位置(声像被定位的位置)。音频信息生成单元108调制音频数据使得其被从指定的位置听到。在这个实施方式中，生成为2声道音频信息。然而，根据音频输出单元109的具体实施方式，可以生成为5.1声道音频信息。

此外，音频信息生成单元108可以根据用户的移动速度来调整已调制的音频数据的再现速度，其中基于由位移计算单元105计算的用户位移来计算用户的移动速度。例如，即使在音频数据选择单元104选择的音频数据也是与“行走”对应的音频数据的情况下，也取决于移动速度的差异，以不同的再现速度进行再现。

接下来，音频输出单元109将音频信息生成单元108生成的音频数据物理地输出为声波。

<4.结论>

根据上述的实施方式，通过识别用户的动作模式并且基于其来切换要再现的音频数据，可以产生遵循用户的动作模式中的变化的表达。另外，通过基于三维位置或用户取向的变化来改变声像定位位置，可以产生以下声音表达：该声音表达遵循用户动作的结果或用户在空间中占据的位置。另外，由于声像定位位置或其基点以相对于用户动作的预定延迟而移动，所以可以产生遵循用户的位置变化的声音表达。如上所述，根据上述的实施方式，在将虚拟角色(例如，狗)设定为虚拟对象的情况下，实现了好像虚拟角色真实存在于用户附近的声音表达。

<5.其他实施方式>

注意本技术还可以采取以下配置。

尽管在图3中挂在脖子上的颈挂式扬声器被示出为外观配置示例，但上述实施方式中公开的技术还可以应用于其他实施方式，例如，包括眼镜式显示器的头戴式显示器。在这种情况下，在通过位移计算单元105和声像位置计算单元106的信息处理输出的虚拟对象的位置处呈现图像也是有利的。根据本技术通过将视觉刺激添加至听觉刺激可以实现协同作用，并且可以向用户提供具有更高质量的增强现实。

<5-1.另外的实施方式1>

将参照图8描述根据本技术的另外的实施方式1的配置。在这个实施方式中，假设存在信息处理装置1的多个用户。在这个实施方式中，存在两种要输入至CPU 100的传感器信息。将输出要在位移计算单元105计算用户位移的信息处理中使用的传感器信息的一个或多个传感器设定为传感器101，并且将输出要在动作识别和疲劳度计算中使用的传感器信息的一个或多个传感器设定为其他人传感器110。

位移计算单元105计算感知音频输出单元109所输出的音频的用户的用户位移。动作识别单元102和疲劳度计算单元103基于不是用户的另外人的传感器信息来识别所述另外人的动作模式和疲劳度。其他信息处理类似于上述实施方式中的信息处理。

根据这个实施方式，识别另外的用户的动作，选择根据动作模式的音频数据，并且声像所被定位的真实空间中的位置遵循收听音频的用户的空间位移。根据这个实施方式，可以向用户提供另外人的虚拟化身追随用户的增强现实。声像位置计算单元106可以将声像定位位置设定在空中，以产生好像另外人的虚拟化身飘浮的感觉。

这个实施方式可以应用于，但不限于，用户能够与在远方跑步的另一个人进行比赛的跑步应用。可替选地，该实施方式可以应用于用户体验另一个人的体验的应用。例如，通过将该实施方式应用于用户体验另一个人的视野的头戴式显示器，可以向用户提供他/她追踪远方的运动员的运动的增强现实。

<5-2.另外的实施方式2>

针对执行，上述实施方式中描述的信息处理并不依赖于上述实施方式中示出的硬件和软件配置。本技术可以以下述形式来实施：图4中所示的部分或全部功能块在单独的硬件上执行。如图9所示，这个实施方式是信息处理装置1被配置为服务器用户端系统的实施方式，在该服务器用户端系统中，包括CPU 100和存储单元107的服务器2与可穿戴装置3经由网络4彼此通信。

在这个实施方式中，可以采用图3中所示的颈挂式扬声器作为可穿戴装置3。另外，智能手机可以被用作为可穿戴装置3的示例。服务器2放置在云端，并且根据本技术的信息处理在服务器2的一侧上执行。本技术也可以以这样的形式实施。

<5-3.另外的实施方式3>

在上述的实施方式中，在图5的S102中动作识别单元102识别用户的动作类型。在这个实施方式中，当在此识别到用户的动作类型的变化时，音频数据选择单元104选择与从变化前的音频数据到变化后的音频数据的音频数据切换模式相对应的音频数据以及变化后的音频数据两者。

切换音频数据的定时是动作的开始或结束的定时。例如，在要提供给虚拟对象的角色是“系有铃铛的角色”并且动作类型从“跑步”变为“静止”时，音频数据选择单元104选择听起来像叮当的叮当声音。音频数据选择单元104选择与“静止”对应的音频数据以及关于叮当声音的音频数据。

根据对应于虚拟对象的角色的动作变化来选择音频数据的这种配置，可以向用户提供更富娱乐性的增强现实或更逼真的增强现实。

除了叮当声音之外，当动作类型从“跑步”变为“静止”时，音频数据选择单元104可以选择指示角色感到惊讶的对话。在这种情况下，可以产生以下效果：在跑步的用户突然停下时虚拟对象的角色感到惊讶。可以使角色更生动，并且向用户提供更富娱乐性的增强现实。

<5-4.另外的实施方式4>

在上述的实施方式中，在图5的S102中动作识别单元102识别用户的动作类型。在这个实施方式中，当在此识别到用户动作类型的变化时，CPU 100执行与变化后的动作类型相关的预定条件确定。在这个条件确定中，确定变化后的动作类型是否匹配于与虚拟对象相关联的信息。

在上述的实施方式或这个实施方式中，向用户提供仿佛虚拟对象追随用户的增强现实(AR)。在这方面，根据用户的动作类型，如果可能的话从虚拟对象发出的音频也被改变。信息处理装置1将个性、特征、所有物等作为不存在的角色给予虚拟对象。在与虚拟对象相关联的这种信息与变化后的动作类型不匹配的情况下，增强现实被降低。

在这方面，在这个实施方式中，变化后的动作类型是否与虚拟对象关联的信息相匹配。当执行关于匹配的条件确定时，音频数据选择单元104可以选择预定的音频数据。

例如，在动作类型从“行走”变为“骑自行车”的情况下，执行虚拟对象的角色的所有物是否包括“自行车”的条件确定。在这个示例中，所有物是否包括“自行车”的条件确定对应于变化后的动作类型是否匹配于与虚拟对象相关联的信息的确定。

在这个示例中作为确定的结果、与虚拟对象相关联的信息(角色的所有物)不包括自行车的情况下，即，角色没有“自行车”的情况下，音频数据选择单元104不选择与自行车对应的音频数据。而是，可以选择角色低声说“我也想骑自行车”的声音。

根据虚拟对象的角色的说话定时受到控制的这种配置，可以向用户提供更富娱乐性的增强现实或逼真的增强现实。

<5-5.另外的实施方式5>

在上述的实施方式中，计算出用户的疲劳或疲劳度作为用户状态的示例，并且疲劳或疲劳度被用于选择音频数据。然而，作为用户状态的另一示例，可以通过传感器101获得用户的情绪(例如，高兴、愤怒、悲伤和快乐情绪)，并且可以基于情绪选择音频数据。传感器101不受特别地限制。只要可以通过生物感测装置根据血压或体温获得用户的情绪，就可以基于情绪选择音频数据。

此外，代替于用户的状态或情绪，或除了用户的状态或情绪之外，可以获得用户周围的环境信息，并且可以基于环境信息选择音频信息。例如，在降雨被检测为环境信息的情况下，音频数据选择单元104根据这个而选择在水洼上行走的声音。根据这种配置，可以向用户提供更富娱乐性的增强现实或逼真的增强现实。

<5-6.另外的实施方式6>

声像位置计算单元106可以基于以下组合中的一个或多个来确定虚拟对象被放置的位置。

·从传感器101获得的信息

·从外部(地图数据等)获得的信息

·关于对虚拟对象给予的个性或所有物的信息

例如，在信息处理装置1能够获得详细的地图数据、并且基于位移计算单元105计算的用户位移的用户绝对位置在建筑物的墙附近的情况下，声像位置计算单元106放置虚拟对象使得所述虚拟对象不在跨过墙面向用户的位置。例如，在虚拟对象是诸如狗的角色的情况下，因为如果角色在行走期间进入墙的另一侧则是不自然的，所以如果能够获得详细的地图数据，则声像位置计算单元106放置虚拟对象使得所述虚拟对象转向至用户的一侧。

可以从外部获得的地图数据不仅包括建筑物的大致纬度和经度，而且包括划分建筑物与道路等之间的边界的墙的位置坐标。在信息处理装置1能够使用这样的地图数据的情况下，可以将建筑物视为由墙的位置坐标围绕的范围。在这方面，声像位置计算单元106将虚拟对象的声像定位位置设置在排除了建筑物的坐标位置的范围中，其中基于由位移计算单元105输出的用户位移来确定所述虚拟对象。具体地，例如，将虚拟对象放置在道路的一侧。可替选地，声像位置计算单元106沿着空间是开放的方向(例如，存在着道路的方向)放置虚拟对象。

此外，在这个示例中，在虚拟对象与物体(例如地图数据上的建筑物的墙)碰撞的情况下，可以再现例如碰撞声音的音频数据。例如，在由声像位置计算单元106放置的虚拟对象的位置与建筑物的位置范围的坐标交叠的情况下，音频信息生成单元108再现例如碰撞声音的音频数据。

注意给予虚拟对象的角色是能够穿过墙的角色(例如鬼魂)，声像位置计算单元106可以将该角色放置在墙的另一侧。此外，在鬼魂穿过墙的时刻可以播放特定的叮当声音。

根据这个实施方式的配置，可以向用户提供更富娱乐性的增强现实或逼真的增强现实。

<5-7.另外的实施方式7>

在这个实施方式中，除了上述的实施方式中公开的配置之外，音频信息生成单元108具有根据虚拟对象的角色的动作状态而生成不同的音频信息的配置。例如，当动作识别单元102领会到用户的动作模式是跑了超过预定阈值的很长时间时，音频数据选择单元104可以选择不同的音频数据，并且由音频信息生成单元108最终生成的音频信息会不同。在这种情况下，音频信息生成单元108可以将要由音频数据选择单元104选择的音频数据从跑步时的正常音频数据切换至例如以下音频数据：所述音频数据指示角色感到疲劳，这例如包括呼吸短促的声音或语音“累了”。

根据这样的配置，可以产生虚拟对象的角色也具有动作状态(疲倦、无聊等)的效果，并且可以向用户提供更富娱乐性的增强现实或逼真的增强现实。

<6.附录>

本说明书中公开的技术思想的部分可以描述为以下的(1)至(17)。

(1)

一种信息处理装置，包括：

动作识别单元，其被配置成基于传感器信息识别用户的动作模式；

音频数据选择单元，其被配置成选择与所述动作识别单元所识别的所述动作模式对应的音频数据；以及

音频信息生成单元，其基于由所述音频数据选择单元选择的所述音频数据来生成用于在所述用户周围的真实空间中对声源的声像进行定位的多声道音频信息。

(2)

根据上述(1)所述的信息处理装置，其中

所述音频数据选择单元被配置成选择所述音频数据作为从要放置在所述真实空间中的虚拟对象发出的音频，并且

所述音频信息生成单元被配置成通过生成所述多声道音频信息来执行声像定位，所述虚拟对象通过所述声像定位被放置在所述声源的位置处。

(3)

根据上述(1)或(2)所述的信息处理装置，其中

所述音频数据选择单元被配置成：在作为所述动作识别单元的识别结果，要选择的音频数据被改变时，选择与从变化前的音频数据到变化后的音频数据的音频数据切换模式对应的音频数据以及变化后的音频数据。

(4)

根据上述(1)至(3)中任一项所述的信息处理装置，其中

所述音频数据选择单元被配置成：在作为所述动作识别单元的识别结果，要选择的音频数据被改变时，在存在与所述用户的动作模式对应的多条音频数据的情况下选择与和所述虚拟对象关联的信息相匹配的音频数据。

(5)

根据上述(1)至(4)中任一项所述的信息处理装置，还包括：

位移计算单元，其基于所述传感器信息来输出包括所述用户的位置的相对变化的用户位移。

(6)

根据上述(5)所述的信息处理装置，其中，

所述音频信息生成单元被配置成：基于由所述位移计算单元输出的所述用户位移，调制由所述音频数据选择单元选择的音频数据，从而生成所述多声道音频信息。

(7)

根据上文的项(6)所述的信息处理装置，其中，

所述音频信息生成单元被配置成调制由所述音频数据选择单元选择的音频数据，使得声像通过所述多声道音频信息而定位的声源被放置在遵循所述位移计算单元输出的所述用户位移的位置处，从而生成所述多声道音频信息。

(8)

根据上述(7)所述的信息处理装置，其中，

所述音频信息生成单元被配置成生成所述多声道音频信息，使得声像通过所述多声道音频信息而定位的声源以一时延来遵循空间中的位置，所述位置从由所述用户位移标识的所述用户的位置开始。

(9)

根据上述(5)至(8)中任一项所述的信息处理装置，其中

所述音频信息生成单元，基于由所述位移计算单元输出的所述用户位移以及从外部获得的包括建筑物的位置坐标的地图信息来生成所述多声道音频信息，使得所述虚拟对象不被放置在所述地图信息中包括的所述建筑物的位置坐标的范围中。

(10)

根据上述(9)所述的信息处理装置，其中，

所述音频信息生成单元在所述地图信息中包括的所述建筑物的位置坐标的范围与虚拟对象被放置的位置交叠的情况下生成包括碰撞声音的所述多声道音频信息。

(11)

根据上述(1)至(10)中任一项所述的信息处理装置，还包括：

状态分析单元，其被配置成分析所述用户的状态，所述状态能够根据所述传感器信息以及所述动作识别单元所识别的所述用户的动作模式中的一个而变化。

(12)

根据上述(11)所述的信息处理装置，其中，

所述音频数据选择单元被配置成选择与所述用户的动作模式对应的音频数据以及与所述状态分析单元所分析的所述用户的状态对应的音频数据。

(13)

根据上述(12)所述的信息处理装置，其中，

所述音频信息生成单元被配置成将所述音频数据选择单元所选择的与所述用户的动作模式对应的音频数据与对应于所述用户的状态的音频数据进行合成，从而基于合成的音频数据生成所述多声道音频信息。

(14)

根据上述(11)至(13)中任一项所述的信息处理装置，其中，

所述状态分析单元被配置成根据所述传感器信息以及所述动作识别单元所识别的所述用户的动作模式中的一个来分配每单位时间的疲劳度，并且积累所分配的每单位时间的疲劳度，从而计算疲劳度作为所述用户的状态。

(15)

根据上述(1)至(14)中任一项所述的信息处理装置，其中，

所述音频数据选择单元在所述动作识别单元所识别的所述用户的动作模式持续超过预定阈值的情况下选择与对应于所述动作识别单元所识别的所述用户的动作模式的音频数据不同的音频数据。

(16)

一种信息处理方法，包括：

动作识别步骤：基于传感器信息来识别用户的动作模式；

音频数据选择步骤：选择与所述动作识别步骤所识别的所述用户的动作模式对应的音频数据；以及

音频信息生成步骤：基于由所述音频数据选择步骤选择的音频数据来生成用于在所述用户周围的真实空间中对声源的声像进行定位的多声道音频信息。

(17)

一种程序，其使计算机执行以下步骤：

动作识别步骤：基于传感器信息来识别用户的动作模式；

附图标记列表

1 信息处理装置

100 CPU

101 传感器

102 动作识别单元

103 疲劳度计算单元(状态分析单元)

104 音频数据选择单元

105 位移计算单元

106 声像位置计算单元

107 存储单元

108 音频信息生成单元

109 音频输出单元

110 其他人传感器

Claims

1.一种信息处理装置，包括：

状态分析单元，其被配置成分析所述用户的状态，所述状态能够根据所述传感器信息以及所述动作识别单元所识别的所述用户的动作模式中的一个而变化，其中，所述用户的状态是所述用户的疲劳度；

音频数据选择单元，其被配置成选择与所述动作识别单元所识别的所述用户的动作模式对应的音频数据以及与所述状态分析单元所分析的所述用户的状态对应的音频数据，作为从虚拟对象发出的音频，所述虚拟对象要被放置在所述用户周围的真实空间中；

位移计算单元，其被配置成基于所述传感器信息来输出包括所述用户的位置的相对变化的用户位移；以及

音频信息生成单元，其被配置成基于由所述音频数据选择单元选择的音频数据，生成用于在所述真实空间中对声源的声像进行定位的多声道音频信息，并且通过生成所述多声道音频信息执行声像定位，其中所述虚拟对象通过所述声像定位被放置在所述声源的位置处，

其中，所述音频信息生成单元还被配置成：基于由所述位移计算单元输出的用户位移，调制由所述音频数据选择单元选择的音频数据，使得声像通过所述多声道音频信息而定位的声源被放置在遵循所述位移计算单元输出的用户位移的位置处，从而生成所述多声道音频信息。

2.根据权利要求1所述的信息处理装置，其中，

3.根据权利要求1所述的信息处理装置，其中，

4.根据权利要求1所述的信息处理装置，其中，

5.根据权利要求1所述的信息处理装置，其中，

所述音频信息生成单元基于由所述位移计算单元输出的所述用户位移以及从外部获得的包括建筑物的位置坐标的地图信息来生成所述多声道音频信息，使得所述虚拟对象不被放置在所述地图信息中包括的所述建筑物的位置坐标的范围中。

6.根据权利要求5所述的信息处理装置，其中，

所述音频信息生成单元在所述地图信息中包括的所述建筑物的位置坐标的范围与所述虚拟对象被放置的位置交叠的情况下生成包括碰撞声的多声道音频信息。

7.根据权利要求1所述的信息处理装置，其中，

8.根据权利要求1所述的信息处理装置，其中，

9.根据权利要求1所述的信息处理装置，其中，

10.一种信息处理方法，包括：

动作识别步骤：基于传感器信息识别用户的动作模式；

状态分析步骤：分析所述用户的状态，所述状态能够根据所述传感器信息以及所识别的所述用户的动作模式中的一个而变化，其中，所述用户的状态是所述用户的疲劳度；

音频数据选择步骤：选择与所述动作识别步骤所识别的所述用户的动作模式对应的音频数据以及与所述状态分析步骤所分析的所述用户的状态对应的音频数据，作为从虚拟对象发出的音频，所述虚拟对象要被放置在所述用户周围的真实空间中；

位移计算步骤：基于所述传感器信息来输出包括所述用户的位置的相对变化的用户位移；以及

音频信息生成步骤：基于由所述音频数据选择步骤选择的音频数据，生成用于在所述真实空间中对声源的声像进行定位的多声道音频信息，并且通过生成所述多声道音频信息执行声像定位，其中所述虚拟对象通过所述声像定位被放置在所述声源的位置处，

其中，所述音频信息生成步骤还包括：基于由所述位移计算步骤输出的用户位移，调制由所述音频数据选择步骤选择的音频数据，使得声像通过所述多声道音频信息而定位的声源被放置在遵循所述位移计算步骤输出的用户位移的位置处，从而生成所述多声道音频信息。

11.一种存储有程序的存储介质，所述程序在被执行时使计算机执行以下步骤：

动作识别步骤：基于传感器信息识别用户的动作模式；