CN116030826A

CN116030826A - 信息处理装置、信息处理系统和信息处理方法

Info

Publication number: CN116030826A
Application number: CN202210213843.4A
Authority: CN
Inventors: 广见怜; 盐津真一; 三木好州; 新井明男; 挂江庸平
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2021-10-27
Filing date: 2022-03-04
Publication date: 2023-04-28
Also published as: DE102022103510A1; US11972051B2; JP2023065046A; US20230125250A1

Abstract

一种信息处理装置，包括控制单元，该控制单元基于内容中的声音信号生成要提供给用户的振动刺激信号，其中该控制单元被配置为：获取内容的数据，该内容包括声音信号；对声音信号执行分析处理；以及根据分析处理的结果，在声音信号的转换处理中生成要提供给用户的振动刺激信号。

Description

信息处理装置、信息处理系统和信息处理方法

技术领域

本文讨论的实施例涉及信息处理装置、信息处理系统和信息处理方法。

背景技术

传统上已知一种向使用头戴式显示器(HMD)等的远程用户提供交叉现实(XR)内容的技术，该XR内容为实况体验型并且包括在活动现场等处现场录制的图像和声音。

值得注意的是，XR是综合表示多种虚拟空间技术的表达，这些虚拟空间技术包括虚拟现实(VR)、增强现实(AR)、混合现实(MR)、替代现实(SR)、音频/视觉(AV)等。

此外，还已知一种技术，该技术用于在上述XR内容的再现期间驱动安装在椅子中的激励器等振动施加单元，从而使用户虚拟地体验所再现的图像和与声音相对应的振动感和/或冲击感(例如，参见日本专利公开No.2007-324829)。

然而，上述传统技术在内容再现期间通过振动刺激增加临场感方面存在改进的余地。

例如，在记录外部环境中的内容时，通常通过高通滤波器(HPF)截断低频范围，以去除诸如脚步声和风噪声之类的噪声。因此，在外部环境中记录的声音的低频范围不足，从而即使基于上述声音产生振动，用户也难以获得临场感。

振动的提供对象例如是椅子和用户，在椅子的情况下由不同的材料制成或具有不同的类型，在用户的情况下具有不同的体型，因此，对于相同的振动刺激，特征通常是不同的。因此，存在没有传递预期的振动从而使用户无法获得临场感的问题。

鉴于上述情况做出实施例的一个方面，并且实施例的目的是提供信息处理装置、信息处理系统和信息处理方法，它们能够在内容再现期间通过振动刺激进一步提高临场感。

根据实施例的一个方面，可以在内容再现期间通过振动刺激进一步提高临场感。

发明内容

根据实施例的一个方面的信息处理装置包括控制单元，该控制单元基于内容中的声音信号生成要提供给用户的振动刺激信号，其中该控制单元被配置为：获取内容的数据，所述内容包括声音信号；对声音信号执行分析处理；以及根据分析处理的结果，在声音信号的转换处理中生成要提供给用户的振动刺激信号。

附图说明

通过参考以下的结合了附图的详细描述，使得本公开及其很多随附优点变得更好理解，因此可以获得对本公开及其很多随附优点的更完整的理解，在附图中：

图1是示意性地示出根据实施例的信息处理方法的图；

图2是示出根据第一实施例的信息处理系统的结构示例的图；

图3是示出根据第一实施例的现场设备的结构示例的图；

图4是示出根据第一实施例的远程设备的结构示例的图；

图5是示出振动输出单元的结构示例的图；

图6是示出根据第一实施例的远程设备的框图；

图7是示出声音/振动转换处理单元的框图；

图8至图10是示出根据第一实施例的声音信号转换处理的补充图；

图11和图12是示出根据第一实施例的由远程设备执行的处理步骤的流程图；

图13是示出根据第二实施例的远程设备的框图；

图14至图16是示出根据第二实施例的声音信号转换处理的补充图；

图17是示出根据第三实施例的远程设备的框图；以及

图18是示出根据第三实施例的由远程设备执行的处理步骤的流程图。

具体实施例

在下文中，将参考附图详细描述信息处理装置、信息处理系统和信息处理方法的实施例。此外，所公开的技术不限于以下描述的实施例。

在下文中，具有基本相同的功能结构的多个结构元件可以通过在相同的附图标记之后提供带有连字符的不同数字来彼此区分。例如，通过表示例如远程设备100-1和远程设备100-2，来根据需要区分具有基本相同的功能结构的多个结构。在不需要区分具有基本相同的功能结构的多个结构元件的情况下，仅提供相同的附图标记。例如，在不需要区分远程设备100-1和远程设备100-2的情况下，将它们分别简称为远程设备100。

将参考图1说明根据实施例的信息处理方法的概要。图1是示意性地示出根据实施例的信息处理方法的图。

根据实施例的信息处理系统1是如下的系统，即，该系统将包括现场图像和声音在内的实况体验型的XR内容提供到活动现场地点之外的远程位置，活动现场例如是展览现场、演唱会现场、烟花活动现场、电竞比赛现场。注意，XR内容对应于“内容”的一个示例。

如图1所示，信息处理系统1包括现场设备10和至少一个远程设备100。现场设备10和至少一个远程设备100被配置为通过网络N(例如因特网)彼此通信。

图1所示的示例表示以下情况：现场设备10将XR内容直播到位于各个位置处的至少一个远程设备100，其中XR内容包括正在关西地区的活动现场1000举行的活动的图像和声音。

图1所示的示例表示远程设备100-1经由HMD向关东地区的用户U1呈现从现场设备10传送的XR内容的情况。

HMD是一种信息处理终端，用于向用户U1呈现XR内容，并使用户U1享受XR体验。HMD是佩戴在用户U1的头上使用的可穿戴式计算机，在图1所示的示例中为护目镜型。注意，HMD可以为眼镜型或帽子型。

HMD包括图像输出单元110和声音输出单元120。图像输出单元110显示包括在从现场设备10提供的XR内容中的图像。在图1所示的示例的情况下，HMD的图像输出单元110被配置为布置在用户U1的眼前。

声音输出单元120输出包括在从现场设备10提供的XR内容中的声音。在图1所示的示例的情况下，HMD的声音输出单元120被配置为例如耳机型，并且附接到用户U1的耳朵。

图1所示的示例表示远程设备100-2通过卫星穹顶D向九州地区的用户U2呈现从现场设备10传送的XR内容的情况。

卫星穹顶D是XR内容的视听设备，形成为穹顶状，并且包括图像输出单元110和声音输出单元120。在图1所示的示例的情况下，卫星穹顶D的图像输出单元110布置在墙面上。图像输出单元110例如通过将薄型的液晶显示器或有机电致发光(EL)显示器布置在墙面上的结构、或者使用投影仪将图像投影到墙面上的结构来实现。卫星穹顶D的声音输出单元120布置在就座用户U2的头部位置附近。

尽管在图1中省略了其图示，但是振动输出单元130被布置在用户U1和U2中的每一个用户附近(参见图4或之后)。振动输出单元130输出与包括在XR内容中的声音相对应的振动，从而给用户U1和U2中的每一个用户提供振动刺激。振动输出单元130由诸如激励器之类的振动施加单元实现，并且布置在用户U1和U2中的每一个用户所坐的椅子中，或者附接到用户U1和U2中的每一个用户。

顺便提及，在记录外部环境中的声音时，低频范围通常会被HPF截断，以去除诸如脚步声和风噪声之类的噪声。然而，如果已经通过上述HPF的声音信号被输入到振动输出单元130以向用户U1和U2中的每一个用户提供振动刺激，则低频范围不足，使得用户U1和U2难以获得临场感。

因此，例如，声音信号可以经由均衡器输入到振动输出单元130，该均衡器被配置为在采用已知技术的同时增加低频范围。另一方面，在通过使用均衡器增加低频范围的情况下，存在未截断的剩余低频噪声也增加的问题，并且仅使用均衡器不能将已经截断的频率范围增加到足以有助于提高临场感。

在这一点上，当采用已知技术时，例如可以根据用户的感觉进行调整，或者可以参考加速度传感器的实际测量值进行调整以接近刺激提供者期望的振动。但是，在根据用户的感觉进行调整的情况下，难以再现刺激提供者期望的振动，并且在由刺激提供者参考实际测量值进行调整的情况下，总是需要具有专门技术的刺激提供者。

因此，根据实施例的信息处理方法包括：获取包括声音信号的XR内容；对声音信号执行用于振动转换的分析处理；以及根据分析处理结果生成要提供给用户的振动刺激。

具体地，如图1所示，在根据实施例的信息处理方法中，首先，现场设备10从现场提供XR内容(步骤S1)。接下来，远程设备100对提供的XR内容中包括的声音信号执行用于振动转换的分析处理，并且根据分析处理结果生成要提供给用户的振动刺激(步骤S2)。

例如，在根据实施例的信息处理方法中，(1)通过诸如快速傅里叶变换(FFT)之类的方法对声音信号执行频率分析。由此，在预定低频范围的水平小于初步设定的阈值的情况下，通过音高位移(pitchshift)将频率除以N(1/N)，在预定低频范围的水平不小于初步设定的阈值的情况下，不加改变地输出。

例如，在根据实施例的信息处理方法中，(2)通过使用基于声音信号估计声源的人工智能(AI)推断模型，对声音信号执行声源估计。结果，通过设置，在声源是分频对象的情况下，通过音高位移将频率除以N，在声源不是分频对象的情况下，不加改变地输出。

例如，在根据实施例的信息处理方法中，(3)作为除音高位移以外的方法，对作为未截断频率范围的最低频率的频率A设置阈值，并且在输入了大于阈值的声音的情况下，输入由等于或小于频率A的频率构成的信号，以增加低频范围。

上述(1)至(3)将在后面参考图2至图12作为第一实施例进行说明。

例如，在根据实施例的信息处理方法中，(4)根据被提供振动的对象之间的差异和对象的状态对振动特征执行校准。上述(4)将在后面参考图13至图16作为第二实施例进行说明。

例如，在根据实施例的信息处理方法中，(5)从输入图像信号和输入声音信号中检测特定场景。根据检测到的场景，基于初步设定的振动参数，通过音高位移将频率除以N。上述(5)将在后面参考图17和图18作为第三实施例进行说明。

换言之，在根据实施例的信息处理方法中，如上述(1)至(5)中所述，根据分析处理结果生成要提供给用户的振动模式。远程设备100基于生成的振动模式驱动振动输出单元130，以提供例如增加了低频范围的振动刺激，或提供例如根据对象的振动刺激。

因此，可以在内容再现期间通过振动刺激进一步提高临场感。

如上所述，根据实施例的信息处理方法包括：获取包括声音信号的XR内容；对声音信号执行用于振动转换的分析处理；以及根据分析处理结果生成要提供给用户的振动刺激。

因此，通过采用根据实施例的信息处理方法，可以在内容再现期间通过振动刺激进一步提高临场感。在下文中，将具体说明应用根据实施例的信息处理方法的信息处理系统1的实施例。

第一实施例

图2是示出根据第一实施例的信息处理系统1的结构示例的图。图3是示出根据第一实施例的现场设备10的结构示例的图。图4是示出根据第一实施例的远程设备100的结构示例的图。图5是示出振动输出单元130的结构示例的图。

如图2所示，信息处理系统1包括现场设备10和至少一个远程设备100。现场设备10和至少一个远程设备100中的每一个是“信息处理装置”的一个示例，并且由计算机实现。现场设备10和至少一个远程设备100被连接成能够经由网络N(例如因特网、专用网络和移动电话网络)彼此通信。

如图3所示，现场设备10包括至少一个相机11和至少一个麦克风12。至少一个相机11记录外部环境的图像。至少一个麦克风12记录外部环境的声音。现场设备10生成XR内容，该XR内容包括由至少一个相机11记录的图像和由至少一个麦克风12记录的声音，并且现场设备10进一步将生成的XR内容提供给至少一个远程设备100。

如图4所示，远程设备100包括图像输出单元110、声音输出单元120和振动输出单元130。图像输出单元110显示包括在从现场设备10提供的XR内容中的图像。声音输出单元120输出包括在XR内容中的声音。

振动输出单元130根据包括在XR内容中的声音输出振动。如上所述，如图5所示，振动输出单元130例如布置在用户U所坐的椅子S中。振动输出单元130可以被配置为嵌入衣服、安全带等中以附接到用户U。注意，振动输出单元130在其中容纳公知的振动转换没备(例如，由磁体(磁路)和驱动电流流过的线圈构成的电振动转换器)，以及由压电元件制成的电功率放大器以便将信号放大到驱动所需的水平。

图6是示出根据第一实施例的远程设备100的框图。图7是示出声音/振动转换处理单元103b的框图。在图6和图7以及图13和图17中，仅描述了用于说明实施例的特征所需的结构元件，并且省略了一般结构元件的说明。

换言之，图6和图7以及图13和图17所示的结构元件的分布和集成的具体形式不限于附图中所示的那些。可以根据各种负载类型、使用状态等，将装置在功能上或物理上分离或集成在任何单元中，从而构成全部或部分设备。

在图6和图7以及图13和图17的说明中，可以简化或省略对已经说明的结构元件的说明。

如图6所示，根据实施例的远程设备100包括通信单元101、存储装置102和控制单元103。振动输出单元130与至少一个远程设备100连接。为了进一步阐明实施例的特征，特意省略了图像输出单元110和声音输出单元120的图示。

通信单元101例如由网络接口卡(NIC)等实现。通信单元101和网络N以有线/无线方式彼此连接，以经由网络N向现场设备10发送信息和从现场设备10接收信息。

存储装置102由诸如随机存取存储器(RAM)和闪存存储器之类的半导体存储元件实现，或者由诸如硬盘和光盘之类的存储装置实现。在图6所示的示例中，存储装置102中存储有振动参数信息102a和声源估计模型102b。

振动参数信息102a例如是以下信息，即，该信息包括与要输出到振动输出单元130的振动有关的各种参数，并且包括要在稍后描述的确定中使用的各种阈值。声源估计模型102b是基于上述声音信号估计声源的AI推断模型。

声源估计模型102b使用声音信号作为输入，并且经由已经学习过的神经网络输出在最终层中具有概率分布的最高概率的声源类别作为结果。通过使用声音信号和作为正确答案数据的、提供给该声音信号的声源类别的信息来执行学习，从而降低分类器的输出结果和正确答案数据之间的损失。例如，正确答案数据是通过手动注释收集的。

控制单元103是控制器，例如，中央处理单元(CPU)、微处理单元(MPU)等在使用RAM作为工作区域的同时执行存储在存储装置102中的未示出的各种程序，从而实现控制单元103。控制单元103可以由诸如专用集成电路(ASIC)和现场可编程门阵列(FPGA)之类的集成电路来实现。

控制单元103包括获取单元103a和声音/振动转换处理单元103b，以实现和执行以下信息处理的功能和行为。

获取单元103a经由通信单元101获取从现场设备10提供的XR内容。

声音/振动转换处理单元103b接收包括在由获取单元103a获取的XR内容中的声音信号，并且进一步执行用于振动转换的分析处理。声音/振动转换处理单元103b根据分析处理结果生成要提供给用户的振动模式。

如图7所示，声音/振动转换处理单元103b包括高频范围截断单元103ba、确定单元103bb、音高位移单元103bc和放大器103bd。

高频范围截断单元103ba通过使用低通滤波器(LPF)截断在振动转换中不需要的高频范围，作为在记录中使用HPF已经截断了低频范围的声音信号的预处理。这是因为人主要强烈地感觉到振动的低频范围分量作为振动。确定单元103bb接收并分析其高频范围已经被截断的声音信号，以便确定音高位移的必要性/不必要性。

确定单元103bb通过诸如FFT之类的频率分析来确定音高位移的必要性/不必要性。例如，确定单元103bb将声音信号输入到声源估计模型102b，并且基于声源估计模型102b响应于上述输入的输出结果来确定音高位移的必要性/不必要性。

在确定单元103bb确定需要音高位移的情况下，音高位移单元103bc对声音信号执行音高位移。放大器103bd放大声音信号并将其作为振动信号输出到振动输出单元130。

在此，参考图8至图10对声音信号转换处理进行补充说明。图8至图10是示出根据第一实施例的声音信号转换处理的补充图。

如图8的上部和中部所示，在现场中记录的实际环境声音的低频范围被HPF截断。结果，在预定频率范围的信号水平小于设定阈值的情况下，例如，如图8的下部所示，在20Hz的平均水平等于或小于-20dB的情况下，在声音信号转换处理中，通过音高位移将频率除以N(这里N＝2)。注意，图8所示的示例对应于上述(1)。例如，对于上述预定的频率范围和阈值，基于感觉分析结果等决定适当的值。

如图9所示，对截止频率设置阈值，该截止频率是未截断的剩余频率范围的最低频率，在截止频率的声音水平不超过该阈值的情况下，在声音信号转换处理中不增加低频范围。

另一方面，如图10所示，在截止频率的声音超过阈值的情况下，在声音信号转换处理中，同时输入由等于或小于截止频率的频率构成的信号(例如，基于感觉分析结果等生成的用于提供适当感觉的信号)以增加低频范围。注意，图9和图10所示的示例对应于上述(3)。在低频范围的增加有助于提高临场感但分频(frequency division)无效的情况下，应该使用上述方法。

接下来，将参考图11和图12说明远程设备100要执行的处理步骤。图11是示出根据第一实施例的由远程设备100执行的处理步骤的流程图。图12是示出根据第一实施例的由远程设备100执行的处理步骤的流程图。

声音信号转换处理的处理步骤主要如图11和图12所示。图11对应于上述(1)。图12对应于上述(2)。

在上述(1)的情况下，如图11所示，声音/振动转换处理单元103b首先接收声音信号(步骤S101)，进而对上述声音信号执行频率分析(步骤S102)。

确定预定低频范围的信号水平是否小于设定阈值(步骤S103)。在信号水平小于阈值的情况下(步骤S103：是)，执行分频(步骤S104)，将分频后的声音信号作为振动信号输出到振动输出单元130(步骤S105)。接下来，结束处理。

另一方面，在信号水平超过阈值的情况下(步骤S103：否)，将声音信号作为振动信号不加改变地输出到振动输出单元130(步骤S105)。接下来，结束处理。在上述(3)的情况下，步骤S104的处理是添加由等于或小于截止频率的频率构成的信号的处理。

在上述(2)的情况下，如图12所示，声音/振动转换处理单元103b首先接收声音信号(步骤S201)，进而使用声源估计模型102b对上述声音信号执行推断(步骤S202)。

作为推断结果，确定是否为分频对象的声源(步骤S203)。在是分频对象的声源的情况下(步骤S203：是)，执行分频(步骤S204)，将分频后的声音信号作为振动信号输出到振动输出单元130(步骤S205)。接下来，结束处理。

另一方面，在不是分频对象的声源的情况下(步骤S203：否)，将声音信号作为振动信号不加改变地输出到振动输出单元130(步骤S205)。接下来，结束处理。

第二实施例

接下来，将说明对应于上述(4)的第二实施例。图13是示出根据第二实施例的远程设备100A的框图。注意，图13对应于图6，因此将主要说明与图6不同的部分。图14至图16是示出根据第二实施例的声音信号转换处理的补充图。

如图13所示，远程设备100A与第一实施例的不同之处在于远程设备100A还包括加速度传感器140和校准单元103c。校准单元103c根据要振动的对象之间的差异和对象的状态来校准振动特征。

首先，将说明校准要振动的对象之间的差异的情况。在这种情况下，在呈现实际振动之前，校准单元103c获取在将预定参考信号提供给参考对象的情况下的振动特征。例如，加速度传感器140布置在参考椅子α的座位表面上，以便获取在提供参考信号的情况下椅子α的实际振动特征。振动信号被配置为基于上述参考椅子α的特征生成振动信号以实现对象振动。在图14所示的示例中，如果被使用的椅子的振动特征与上述参考椅子α的振动特征近似，则能够向用户提供期望的振动。

另一方面，校准单元103c获取在将相同的参考信号提供给由要接收实际振动的用户使用的振动设备的情况下的振动特征。在这种情况下，例如，加速度传感器140布置在轮椅β的座位表面上，以便获取在向轮椅β输入参考信号时的实际振动特征。假设图15表示上述轮椅β的振动特征。

校准单元103c调整要输出到轮椅β的振动信号的每一个频率的输出水平，以减小椅子α的振动特征和轮椅β的振动特征之间的差异。

例如，如图14和图15所示，假设轮椅β与椅子α相比具有在40Hz处的振动极大衰减的振动特征。在这种情况下，如图16所示，校准单元103c通过使用均衡器来调整要输出到轮椅β的振动信号，以使40Hz的水平增加+2dB或更多。校准单元103c将这种调整特征存储在振动参数信息102a中，使得声音/振动转换处理单元103b在实际对轮椅β提供振动时执行调整。

接下来，将说明基于对象状态的校准。很难测量人对通过皮肤接收到的振动的感觉；然而，众所周知，人感受到的振动刺激的强度通常与他/她储存的脂肪量有关。

因此，校准单元103c预先在其中存储用于例如针对体重以10kg为增量进行振动调整的参数。校准单元103c测量要实际接收振动的对象人的体重。例如，假设对象人C的体重是80kg。

接下来，校准单元103c针对对象人C(即体重为80kg的人)调整振动特征，以使上述对象人C感觉到与体重适当的人B所感觉到的振动相似的振动。例如，与体重为60公斤的人相比，体重为80公斤的人估计难以感觉到振动，在这种情况下，例如，校准单元103c将对象人C的振动输出水平调整为比体重为60kg的人的振动输出水平大+2dB。注意，在本示例中，根据体重对振动水平(振幅)进行调整；然而，可以根据体重来调整诸如振动频率水平的特征之类的、用于振动调整的各种参数。

如上所述，根据要振动的对象之间的差异和对象的状态来执行振动特征的校准，从而可以不依赖于对象地提高由振动刺激提供的临场感。注意，将振动(信号)实际提供给要振动的对象、测量其响应并根据结果执行校准的校准可以称为实际测量型，检测对象的状态(体重等)并根据检测结果执行校准的校准可以称为推断型。

在上述推断型的示例中，体重被示例为要振动的对象的状态；但不限于此，例如可以采用骨密度、年龄、性别等。

第三实施例

将说明对应于上述(5)的第三实施例。图17是示出根据第三实施例的远程设备100B的框图。图17与图13同样对应于图6，因此将主要说明与图6不同的部分。

如图17所示，远程设备100B与第一实施例的不同之处在于远程设备100B还包括场景检测单元103d和提取单元103e。

场景检测单元103d从由获取单元103a获取的XR内容的图像信号和声音信号中检测特定场景。例如，场景检测单元103d通过初步设定的时间点的到达来检测场景。在这种情况下，特定场景的发生时间点(XR内容的回放位置时间点)将通过手动操作来预先确定。作为上述的对发生时间点的确定，考虑下列方法：直接确定时间点的方法；以及通过对根据包括在XR内容数据和回放位置时间点数据中的场景数据、图像/声音数据等估计的场景进行互相匹配的处理，来确定对象场景类别的方法。

场景检测单元103d基于相对于XR内容中的对象的位置关系来检测场景。例如，考虑距烟花预定距离内的情况。例如，预定距离内的接近由包括在XR内容数据中的对象(类别)及其位置数据确定。场景检测单元103d根据XR内容中的状况变化来检测场景。例如，考虑用户进入XR内容中的虚拟空间的音乐厅的情况。场景检测单元103d根据与XR内容中的对象的接触关系来检测场景。例如，考虑用户与XR内容中的虚拟空间中的某物发生碰撞的情况。例如，碰撞的检测也由XR内容数据中包括的对象(类别)及其位置数据来确定。

在振动参数信息102a中初步设定各场景中的振动参数，提取单元103e根据由场景检测单元103d检测出的场景提取振动参数。

声音/振动转换处理单元103b基于由提取单元103e提取的振动参数来执行声音信号转换处理。

接下来，将参考图18说明要由远程设备100B执行的处理步骤。图18是示出根据第三实施例的由远程设备100B执行的处理步骤的流程图。

如图18所示，在第三实施例中，场景检测单元103d基于XR内容的图像信号和声音信号等检测场景(步骤S301)。声音/振动转换处理单元103b接收声音信号(步骤S302)。

确定由场景检测单元103d检测出的场景是否为分频对象的场景(场景是否为振动增强处理的对象)(步骤S303)。这里，在场景为分频对象的情况下(步骤S303：是)，执行分频(步骤S304)，将分频后的声音信号作为振动信号输出到振动输出单元130(步骤S305)。接下来，结束处理。

另一方面，在场景不是分频对象的情况下(步骤S303：否)，将声音信号作为振动信号不加改变地输出到振动输出单元130(步骤S305)。接下来，结束处理。

如上所述，至少一个远程设备100、100A和100B包括控制单元103，该控制单元103基于内容中的声音信号生成要提供给用户的振动刺激信号，其中控制单元103被配置为：获取包括声音信号的XR内容(与“内容”的一个示例相对应)的数据；对声音信号执行分析处理；并且根据分析处理的结果，在声音信号的转换处理中生成要提供给用户的振动刺激信号。

因此，根据至少一个远程设备100、100A和100B，可以通过基于在XR内容再现期间的分析结果的适当振动刺激，来进一步提高临场感。

转换处理包括根据分析处理的结果的、对振动刺激信号中的低频范围的增强处理。

因此，根据至少一个远程设备100、100A和100B，在XR内容再现期间的振动刺激中的低频范围被增强以改变为适当的状态，从而可以进一步提高临场感。

增强处理包括对在转换处理中使用的声音信号的分频处理。

因此，根据至少一个远程设备100、100A和100B，在XR内容的再现期间的振动刺激中的低频范围通过声音信号的分频被增强以改变为适当的状态，从而可以进一步提高临场感。

分频处理包括：根据分析处理的结果，通过音高位移对声音信号进行分频。

因此，根据至少一个远程设备100、100A和100B，通过利用音高位移实现的声音信号分频，在XR内容的再现期间的振动刺激中的低频范围被增强以改变为适当的状态，从而可以进一步提高临场感。

转换处理包括：合成由预定低频范围内的信号构成的振动信号。

因此，根据至少一个远程设备100、100A和100B，能够生成通过除音高位移以外的方法增强了低频范围的振动，从而可以进一步提高在XR内容再现期间由振动刺激引起的临场感。

控制单元103还被配置为：在声音信号中预定低频范围的水平小于初步设定的阈值的情况下，执行增强处理。

因此，根据至少一个远程设备100、100A、100B，根据预定低频范围的水平，来确定在声音/振动转换处理单元103b中执行的、针对要提供的振动中的低频范围的增强处理是否是必需的，以便生成振动信号，从而可以提供不会被过度增强的适当的振动。

控制单元103还被配置为：通过对声音信号的声源进行估计的人工智能(AI)推断模型来估计声源；以及执行与估计的声源相对应的转换处理。

因此，根据至少一个远程设备100、100A和100B，能够根据推断的声源来生成振动，从而可以进一步提高在XR内容再现期间由振动刺激引起的临场感。

远程设备100B的控制单元103还被配置为：从XR内容中检测特定场景；以及执行与检测到的场景相对应的转换处理。

因此，根据远程设备100B，能够根据检测到的场景生成增强了低频范围的振动，从而可以进一步提高在XR内容再现期间由振动刺激引起的临场感。

远程设备100A的控制单元103还被配置为：根据振动提供环境对转换处理执行校准。

因此，根据远程设备100A，能够生成根据对象的状况调整了的振动，从而可以不依赖于对象地提高由振动刺激引起的临场感。

在上述实施例中，说明了声音/振动转换处理由远程设备执行；然而，声音/振动转换处理可以由现场设备执行。在这种情况下，要提供的XR内容包括用于提供振动刺激的振动信号。此外，进行校准等所需的数据在远程设备和现场设备之间传送。

Claims

1.一种信息处理装置，包括控制单元，所述控制单元基于内容中的声音信号生成要提供给用户的振动刺激信号，其中，

所述控制单元被配置为：

获取内容的数据，所述内容包括声音信号；

对所述声音信号执行分析处理；以及

根据所述分析处理的结果，在所述声音信号的转换处理中生成要提供给用户的振动刺激信号。

2.根据权利要求1所述的信息处理装置，其中，

所述转换处理包括根据所述分析处理的结果的、对振动刺激信号中的低频范围的增强处理。

3.根据权利要求2所述的信息处理装置，其中，

所述增强处理包括对在所述转换处理中使用的所述声音信号的分频处理。

4.根据权利要求3所述的信息处理装置，其中，

所述分频处理包括：

根据所述分析处理的结果，通过音高位移对所述声音信号进行分频。

5.根据权利要求2至4中任一项所述的信息处理装置，其中，

所述转换处理包括：

合成由预定低频范围内的信号构成的振动信号。

6.根据权利要求2至4中任一项所述的信息处理装置，其中，

所述控制单元还被配置为：

在所述声音信号中的预定低频范围的水平小于初步设定的阈值的情况下，执行所述增强处理。

7.根据权利要求1至4中任一项所述的信息处理装置，其中，

所述控制单元还被配置为：

通过估计所述声音信号的声源的人工智能AI推断模型估计声源；以及

执行与估计的声源相对应的转换处理。

8.根据权利要求1至4中任一项所述的信息处理装置，其中，

所述控制单元还被配置为：

从所述内容中检测特定场景；以及

执行与检测到的场景相对应的转换处理。

9.根据权利要求1至4中任一项所述的信息处理装置，其中，

所述控制单元还被配置为：

根据振动提供环境对所述转换处理执行校准。

10.一种信息处理系统，包括：

现场设备；以及

远程设备，其中，

所述现场设备被配置为：

生成内容，所述内容包括由麦克风记录的声音；以及

将生成的内容提供给所述远程设备，

所述远程设备包括：

控制单元，被配置为基于内容中的声音信号生成要提供给用户的振动刺激信号，以及

所述控制单元还被配置为：

获取关于从所述现场设备提供的内容的数据；

对所述声音信号执行分析处理；以及

11.一种用于基于内容中的声音信号生成要提供给用户的振动刺激信号的信息处理方法，所述方法包括：

基于声音信号生成要提供给用户的振动刺激信号，其中所述声音信号根据内容的声音信号的分析结果进行了处理。