CN110915240B - 向用户提供交互式音乐创作的方法 - Google Patents
向用户提供交互式音乐创作的方法 Download PDFInfo
- Publication number
- CN110915240B CN110915240B CN201780092468.XA CN201780092468A CN110915240B CN 110915240 B CN110915240 B CN 110915240B CN 201780092468 A CN201780092468 A CN 201780092468A CN 110915240 B CN110915240 B CN 110915240B
- Authority
- CN
- China
- Prior art keywords
- user
- sound
- virtual space
- orientation
- sound sources
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/301—Automatic calibration of stereophonic sound system, e.g. with test microphone
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
本发明提供以下项目:一种向用户提供交互式音乐创作的方法。一种提供需要蒙眼玩的计算机游戏的方法。本发明基于人类双耳听觉的能力以及在虚拟空间中从对象向用户的头戴式耳机提供3D声音的可能性。用户浸入声音对象所表示的虚拟空间。使用所述用户在虚拟空间中的位置和定向以及每个声音对象在虚拟空间中的位置,可以计算并向用户的左耳和右耳提供用户将感知到的3D声音。借助此3D声音,用户可以在所述虚拟空间内定位声音源位置,甚至可以在蒙眼的情况下与所述声音对象进行交互。在虚拟空间中提供多个未预混合的音轨作为声音源为所述音乐创作的用户交互式收听创造了可能性。
Description
技术领域
3D声音是被正确计算的进入立体声头戴式耳机的三维声音,并且允许用户在虚拟空间中定位声音源,从而直观地限定声音源的位置。
双耳听觉具有在现代应用(例如,计算机游戏、录制和收听音乐)中并未完全使用的特殊可能性。
即使一些游戏部分地支持3D声音,但这产生最小的效果,因为通常所有计算机和游戏机都被固定地放置并且固定地放置扬声器或杜比环绕系统,并且任何方面都不取决于用户相对于声音源的转动。立体声头戴式耳机也没有适当的效果,因为声音不会因头部旋转而改变。3D声音的关键在于使用头部定向数据。如果这样做,则知道用户的头部在空间中的定向并正确地使用本信息,就可以在虚拟空间中从定位的声音源为用户的两只耳朵中的每只耳朵再现声音。
距声音源的距离取决于用户头部朝向声音源的位置和定向。例如,声音源离耳朵越近,声音越大。声音源与不同耳朵的距离差越大,声波波前到达较远耳朵的时间延迟就越大。除了由于与声音源的距离不同而导致的声级差异之外,对于应由不同耳朵的必要声级的正确确定所使用的头部“遮蔽”的声音,音量会大大降低。在此情况下,遮蔽取决于声频、头部和耳朵形式以不同方式进行。
例如,时间延迟分量是双耳听觉的重要组成部分。但是一些声音引擎(DirectSound、Open GL库等)不能正确地支持它。即使在一些声音引擎和库中部分地实施了双耳声音的一些功能,单如果没有用户头部的定向数据,也无法使用,因为立体声扬声器或甚至环绕系统都无法在所有方向上精确定位声音源。
两个听觉接收器(外耳)的空间多样性以及使用衍射效应的头部和身体的屏蔽效果会导致传输到右耳和左耳的信号之间存在显著差异;它可以将声音源定位在受三个物理因素限制的空间中:
a)时间(耳间时间差-ITD)-由相同声音相位到达左耳和右耳的时间差引起;
b)强度(耳间强度差-IID)-由于声波在头部周围的衍射以及从与声音源相对的一侧形成“声影”,由声波的不同强度值引起-头部相关传输函数(HRTF)。
c)频谱-由于头部和外耳对复杂声音的低频和高频分量的不同屏蔽效果,由左耳和右耳接收的声音频谱的差异引起。
背景技术
声音可以由多种源表示:语音、音乐、言语、歌曲、动物、昆虫、自然现象等。声音具有多种属性:音高(频率)、音量、方向性、传播速度、衰减。真实的声波并非平面,而是球形。球面波的强度与平方距离成反比减小。通过计算用户耳朵的音量值,有必要说明,通过无限接近,声音将达到最大。本最大值应被限制为安全阈值以防止伤害用户的听觉。如果例如游戏中的声音源是爆炸,它不会随远处的音量增加而因二次衰减增大阈值。但是,如果虚拟空间中的爆炸位于用户的耳朵附近,则当它超过阈值时,有必要发送的不是标称计算值,而是阈值一。本逻辑可以并且应当设置在应用的声音引擎中,以确保用户听觉和健康的安全。
声音感知取决于麦克风灵敏度、可能具有最小和最大感知阈值的听觉、取决于频率的声音灵敏度特性。包含人类在内的大多数动物都有双耳听觉,它们的两只耳朵(声音探测器)相互间隔并且通常以不同方式定向。许多动物都可以在正确的方向上改变耳朵和外耳定向。这意味着,取决于波前到达探测器(耳朵,麦克风)有多快以及声音有多大,用户可以直观地确定其位置(距离和方向)。用户(收听者)通过本性和生活经验自动下意识地感知声音源的空间位置。一方面,这是动物生理本能地确定的客观过程。另一方面,它在很大程度上取决于个体的感知特性、外耳的形状、灵敏度和背景经验。例如,一个已经听过大黄蜂的嗡嗡声并标识了其空间位置的人将能够在听到它时很精确地想象它(在空间中)朝向他的位置。如果一个人不知道声音源的“标准”音量,即使他可以很精确地确定声音所来自的方向,他也很难精确地确定到声音源的距离。在3D声音应用中,我们首先需要提供声音实例及其标准音量,并且示出它们的发出者、它们的成本以及价格随时间变化的方式。空间中的声音反射到达耳朵也会对感知过程产生影响。有时,在建筑物的走廊中,在有建筑物的城市中,在森林中,用户听到反射声音信号的声音更大,尤其是当源被一些障碍物隔离于视线之外时。用户可以直观地或逻辑性地得出有关真实源位置的结论。这对于军队和警察训练至关重要。还可以为计算机应用的声音引擎进行反射、衍射和干涉编程,以便在虚拟空间中进行再现近似真实的声音。
发明内容
每个声音源都具有其6-DOF坐标。6-DOF是6个量度,其中3个是线坐标(例如,正交坐标X、Y、Z)和定位定向的三个坐标(例如,欧拉角)。相同的定向可以用不同的方式表示,例如用四个四元数唯一地描述。每个用户在空间中都有他的6-DOF坐标。用户和声音源在虚拟空间中的坐标都可以使用6-DOF坐标或以其它方式描述,并且它们的坐标可以随时间变化。现代技术允许实时地跟踪手和手指的移动,并且以此方式控制虚拟或增强现实中的对象。对于被操纵的对象有益的是,使三维声音对应并根据位置、定向和手的操纵来改变它。例如,握紧手以用充气玩具发出口哨声,以听见被抚摸的虚拟猫的咕噜声。
具有三维声音的智能手机上的应用可以使用不同类型的传感器(包含GPS)进行定位。例如,用户站在体育场的中心(指示本位置为零),另一个用户可以同时在世界的另一个地点位于体育场中。小工具(gadget)上的应用可以经由互联网连接到一个网络中,并在原始坐标汇合的地方交换相互的相对数据。如果一个用户的任务是在同一个虚拟空间中抓住另一个用户,则他们甚至无法在视觉上彼此显示,并且在其位置提供了一个声信标。另一个用户将用听觉感受所述用户在哪里,在哪一边,他可以朝此方向走。而且,第一个人将试图远离他。例如,抓住是指在虚拟空间中来到相距某一距离的伙伴处。这就像在虚拟空间中玩马可波罗(Marco-Polo)。这几乎与在一个真实空间中在黑暗中以声音定向彼此追逐几乎一样。考虑到用户的眼睛不能从屏幕上转移,在与对象和其它人碰撞的意义上,他们将是安全的。用户可以完全浸入虚拟对象的声音源所呈现的虚拟空间,但是与此同时,他的视觉中只有一小部分可以关注小工具的小屏幕。这将允许注意真实生活中障碍物和周围的危险情况,例如与其它人或墙壁的碰撞。甚至可以将小工具放在口袋中,并通过应用的3D声音进行完全交互而无需视觉监视虚拟环境,但对浸入虚拟世界的声音部分完全控制。可以通过监视身体活动来完成应用。可以使用传感器(例如,Kinect)监视较小空间的移动。并且,一个人可以在Virtusphere?的HMD中显示的虚拟空间中走动,所述Virtusphere?允许在虚拟空间内以任何方向、任何距离的走动。如果一个人坐在扶手椅上或在站在一个地方玩,则可以用触摸屏或操纵器而非物理移动来控制化身的移动。一个或多个用户可以在虚拟空间中追逐声音信标,以刺激体育场中的移动。“飞行的”MP3播放器可以作为信标。这表示,可以播放用户想听的音乐。用户将在不注意的情况下通过或奔跑相当长的距离,并进行由应用控制的必要的锻炼,从而尝试更接近飞行的虚拟mp3播放器。来自便携式监视器的身体活动数据允许通过智能手机以及专用手表和手环对其进行微调。
所述方法使得能够创建完全没有图像或一段时间没有图像的纯声音游戏。可以靠听觉来玩。一个人可以听到对象的声音,确定其定位,例如根据应用的目的接近它或远离它或射击它。
根据本发明,为了计算来自位于虚拟空间模型的确定位置处的源的声级,声音引擎必须使用声音源方向性(在其有意义时)、空间中的坐标和用户头部定位、头部定位和位置,以便声级值取决于源到每只耳朵的距离、声音到达每只耳朵的时间延迟、头部对耳朵的“屏蔽”的考虑(头部相关传输函数)(如果耳朵不在声音源的视线范围内)、声音衍射以及声音频谱分量的考虑。由于外耳的曲率不同,不同频率的声音会被头部以不同的方式屏蔽并被不同地感知。
有用的是,应用装置来确定空间中的用户定向(用户的头部)及其在虚拟空间中的适当定向;这提高了声级在虚拟空间中从源传输到每个耳朵的准确度,并且允许用户更精确地确定声音源在虚拟空间中的定位。应注意的是,根据本发明,使用三维声音的应用可以是由环境和对象的3D图像辅助的,或可以是没有可视化并且只能通过听觉感知。如果用户喜欢在没有虚拟空间的可视化和/或屏幕上的对象的情况下玩,则可以保留有关游戏时间、得分、虚拟按钮等的相伴信息。
有用的是,使用用户两只耳朵的原始声音的修改,通过计算将正确的渐变音量传输到每只耳朵,利用计算出的声音前的时间延迟,并使用音高滤波器以确保自然的声音感知及其在虚拟空间中的源定位,来向用户提供双耳声音。
一种用于创建具有三维虚拟空间的应用的方法,所述三维虚拟空间使用户能够自然地确定虚拟空间中的声音源定位。为此目的,使用了所有可能的听觉属性,其生理特性以及声音在空间和用户头部中传播的特征。根据本发明创建的应用允许应用的用户以其出生以来便具有的且符合其经验的方式自然地用听觉确定声音源的定位。
一种可能性是使用带有旋转传感器的现代智能手机和平板电脑。如果我们将立体声头戴式耳机连接到它们并传输根据本发明正确计算的声音,则可以使用智能手机的旋转传感器来代替头部上的传感器,因为如果用户将其手持,他通常会垂直看显示器,这意味着他的头部和智能手机同步旋转。如果将智能手机戴于头部上,则根据本发明将其连接。
一种用于创建和运行计算机应用(其中3D声音是主要部分)的方法。为了成功运行所述应用,用户应始终将其源放置在模拟3D空间中,无论空间本身是否显示。
本发明描述了一种用于用户使用多声道音频来交互式地收听音乐的方法。所述方法允许在虚拟空间中空间地表示声音源,并具有在本用户空间中移动以交互式收听这些声音源作为三维声音的能力。可以更改声音源在空间以及动画(animated)空间中的设置。戴着立体声头戴式耳机的用户将有可能借助双耳听觉来区分源在空间中的位置,并有可能改变其朝向这些声音源的定向和位置。通过双耳听觉,人不仅可以确定声音源的方位位置,还可以估计声音源是来自上方还是来自下方。即使源不可见,用户将头部向右或向左倾斜就足够了,他也将能够精确地了解声音源所在的高度。
出于历史原因,从静止点开始录制与艺术家有关的声音,包含音乐和歌曲(音轨)。即使录制了多个声音声道(例如,多个歌手或不同的乐器),所有声道也将被合并在一起,以供用户在头戴式耳机或扬声器的两个立体声声道中(或者在更高级的情况下,采用杜比标准)静态地再现。用户进行交互的可能性有限,例如音量变化,(有时)声道之间的平衡变化或高级设备上频率背景和音调的变化。用户无法通过自己的自由选择关闭混合创作上的任何音源,也不能单独更改其中一个声音源的音量,因为所有这些声音声道已经转换为静态作品,例如在CD上或以MP3格式。尽管本作品是由才华横溢且经验丰富的声音工程师完成的,但用户仍可以享受其代表形式的变体。但是他们不能按照自己的意愿更专心地听某一个声音源(例如,在他们愿意的时候听某一个歌手或听吉他)。如果将单独录制而非混合的音乐声道的音轨或通过将其保存在多声道变体中而形成的新音乐(其是所述方法的理想选择)保存在档案中,则微处理器的现代化设施和所述方法允许以一种新的交互方式收听预录制的音乐。
基于本发明的目的是创建一种向用户提供交互式音乐创作的方法,其中用户将能够交互式地收听所述音乐创作,并且可以通过简单的界面(例如,常规计算机游戏中的导航)根据用户的意愿收听每个人声或乐器的细节。
基于本发明的另一个目的是创建一种提供需要蒙眼玩的计算机游戏的方法,其中用户将能够玩所述计算机游戏,使用人类听觉的双耳特征以及定位一个或多个声音源的能力来对来自虚拟空间内的对象的3D声音做出反应。
所述目的通过一种向用户提供交互式音乐创作的方法来实现,所述方法由以下组成:所述音乐创作包括来自多个声音源的唱片,所述声音源来自由以下组成的群组:人声音轨和乐器音轨,指定每个声音源在虚拟空间中的初始坐标,确定所述声音源的位置和定向,确定用户(化身)在虚拟空间中的初始位置和定向,激活音乐创作播放,同时向用户提供改变其在虚拟空间中的位置和定向的能力,同时用户在收听音乐创作期间改变虚拟空间中的位置和定向,计算用户的每只耳朵的音量,并且根据用户在虚拟空间中相对于每个声音源的当前坐标实时地向用户的每只耳朵提供来自多个声音源中的每一个声音源的声音。
有用的是,进一步根据用户在真实空间中的定向来确定用户在虚拟空间中的定向。
有利的是,进一步根据真实空间中的定向和位置来确定用户在虚拟空间中的位置和定向。
优选的是,通过界面执行用户在虚拟空间中的位置和定向的改变,所述界面来自由以下组成的群组:触摸屏、操纵杆、鼠标、另外的小工具以及位置和定向传感器。
有用的是,更改声音源在虚拟空间中的位置和定向。
有利的是,用户在音乐创作环境内行走,在蒙眼的情况下对用户在头戴式耳机中所收听的声音做出反应。
前述目的还通过一种提供需要蒙眼玩的计算机游戏的方法来实现,所述方法由以下组成:激活形成虚拟空间的模型的应用,所述虚拟空间由表示声音源的声音对象形成,将用户浸入所述虚拟空间,向用户提供挂在用户的头部上的立体声头戴式耳机,确定用户在虚拟空间中的位置和定向,实时地使用用户在虚拟空间中相对于所述声音源的位置和定向的数据,为用户的每只耳朵计算每个所述声音源在虚拟空间中的声音参数;并且向用户的左耳和右耳的左耳机和右耳机提供声音,用户能够通过双耳听觉相对于声音源在空间中行走,以便与虚拟空间的对象进行交互。
有用的是,根据用户在真实空间中的头部定向来确定用户在虚拟空间中的定向。
有利的是,通过使用位于用户手中的小工具传感器来确定用户的头部定向,从而使小工具随用户的头部转动同步旋转。
优选的是,使用具有定向传感器作为小工具的智能电话。
有利的是,使用由以下组成的群组作为声音对象:连续的低语声、叮当声、嗡嗡声和唱歌声(蜜蜂、黄蜂、大黄蜂、苍蝇、牛虻、唧唧叫的小虫(chirping gnat)、蚊子、动画音乐播放器、唱歌对象、多轴直升机和无人机)。
有用的是,即使在不反映虚拟空间或对象的情况下,在小工具的屏幕上反映运行信息,例如得分、虚拟按钮、其它界面元素(例如,箭头)。
发明的实施例
基于根据本发明的方法的最优选的应用是用于使用音乐创作的未混合音轨(分支)的智能手机的应用。音乐音轨以具有应用的虚拟空间中的坐标的源形式放置。带有智能手机和头戴式耳机的用户至少能够完全浸入应用的虚拟声音空间。对于每只耳朵,应用会根据用户在虚拟空间中的坐标来计算每个声音源的声音值。这确保了对空间中的3维声音的感知。也就是说,它提供了用户在虚拟声音空间中的完全浸入,甚至在视觉上未完全浸入同一空间。我们认为,这是优势。用户将能够在智能手机屏幕上看到虚拟空间以及周围的真实空间。与使用虚拟眼镜潜水相比,这将确保更高的用户安全性。当用眼镜完全浸入时,用户将失去看到真实空间的能力,并且可能会遇到真实障碍物或从楼梯上掉下。例如使用触摸屏在虚拟空间中移动的用户可以自然地在空间中旋转,从而组合不同的界面。在空间中,用户将连同智能手机一起旋转,智能手机的陀螺仪传感器将能够跟踪用户的定向。根据本数据,用户在虚拟应用空间中的位置和定向将发生变化。也就是说,根据用户的动作,再现的音乐的声音将交互式地改变。并且,再次运行所述应用并在不同的路线上前进,用户将听到完全不同的音乐。用户可以根据他们的心情或目标交互式地改变对音乐的感知。
本发明提供了完全浸入虚拟环境的3D声音且具有不完全的视觉浸入的可能性。这确保了用户的安全性。用户将看到环境并且不会掉下楼梯或遇到障碍。
具有三维声音的上述应用及其界面中的大多数都可以通过用户的语音命令成功地进行补充。有用的是,在应用中具有语音识别工具。例如,用户说“选取一个对象”、“运行”、“砰!砰!”-射击。将智能手机置于身前或戴于头部上或戴着带有麦克风的头戴式耳机的用户可以借助语音射击、移动、甚至绕虚拟空间转动。
附图说明
将参照附图通过具体实施例进一步解释本发明,在附图中:
图1是示出了远离声音源的用户的被遮蔽的右耳的视图。
图2是示出了两只耳朵可以听到声音源但以不同的方式听到声音源的视图。
图3是示出了具有连接到小工具的定向传感器的头戴式耳机的视图。
图4是示出了与小工具集成的头戴式耳机的视图。
图5是示出了不具有定向传感器的头戴式耳机的视图,所述定向传感器在小工具中。
图6是示出了创建和提供音乐创作的传统方法的视图。
图7是示出了作为虚拟空间内部的声音源的音乐音轨以及用户在虚拟空间中的三个不同位置和定位的布置的视图。
图8是示出了乐队和用户的路线的另一个布置的视图。
具体实施方式
现在将参考附图更全面地描述本发明,在附图中示出了本发明的示例性实施例。然而,本发明可以以多种不同的形式来实施,并且不应被解释为限于本文阐述的实施例。相反,提供了这些实施例,使得使本公开透彻和完整,并且将本发明的概念充分传达给本领域技术人员。
图1是具有右耳2和左耳3的用户1以及声音源4的俯视图。声音可以自由地到达用户的左耳。但是右耳在此位置和定向会被用户的头部遮蔽。右耳的音量将大大低于左耳或右耳没有音量。甚至更低的声音信号对于左耳而言,不仅会因音量级而异,而且会因频率特性而异。较低频率信号可以通过衍射到达被遮蔽的耳朵,而高频信号则不会。同样,与右耳相比,声音信号的波前将更早地到达左耳。
图2示出了与图1相比的根据声音源的用户头部的另一个布置。双耳都可以听到声音信号,但是左耳的音量会比右耳高。同样,与右耳相比,声音信号的波前将更早地到达左耳。
图3是示出了戴着头戴式耳机5的用户1的视图。头戴式耳机与连接到小工具7的定向传感器6集成。优选的是,探测用户头部的定向,以便根据虚拟空间中的声音源正确计算3D声音,并使用头部相关变换函数(HRTF)。
位于头部上的定向传感器是确定用户定向的最佳选择。
图4是示出了与小工具8集成的头戴式耳机5的视图。此装置可以由GPS传感器、定向传感器、用于3D声音计算的微处理器和其它装置组成。应用和小工具的控制也可以通过口头命令来提供。
图5是示出了不具有定向传感器的头戴式耳机9的视图,所述定向传感器位于小工具10中。优选地,如果用户将用两只手握住小工具以能够与小工具同步转动。在这种情况下,来自小工具的定向传感器的定向数据可以用作用户的定向。通常,当用户保持垂直地看向小工具的屏幕时,小工具和头部的定向是相同的,这是非常直观的。这表示,当用户使用小工具并看向小工具屏幕时,小工具的定向与用户的定向相对恒定。在此情况下,应用可以将小工具定向用作用户的头部定向,同时考虑到他们的相互布置。
图6是示出了创建和提供音乐创作的传统方法的视图。共有6条音轨,例如人声11、节奏吉他12、低音吉他13、键盘14、打击乐器(鼓)15和吉他16。通常,所有音轨都是在录音棚中单独编写的。然后,录音棚17中的声音工程师(录音师)为用户(收听者)编辑(合并,混合)立体声唱片18的两个声道。可以在一种介质上编写和分布这种混合的音乐创作。所有用户都可以听到由声音工程师在录音棚中编辑的音乐创作,而无关于介质:黑胶唱片、卡带、CD或mp3。始终对所有用户而言,其将是相同的音乐创作。通常,用户所有可能的交互是在左声道和右声道之间的平衡,有时只是改变音量。立体声、四声道或杜比环绕之间没有太大区别-它们都是永久固定的唱片。
图7是示出了虚拟空间中用户-收听者的三种不同位置和定向的视图。根据本发明的方法提出了用于交互式收听音乐创作的解决方案。不必以固定的方式将多个音轨合并成立体声。音轨源11-16以自己的坐标彼此放置在虚拟空间中。用户浸入虚拟空间。所有音轨都在虚拟空间中激活和播放。用户1将能够在虚拟空间中移动并交互式地收听音乐创作。声音引擎将从每个声音源为用户的左耳和右耳实时地计算并提供音量。计算应考虑HRTF和用户的位置和定向数据、声音源坐标数据。在图7上示出了相对于音轨源的位置的三个不同的用户位置和定向19、20和21。例如,用户的位置和定向19允许以良好音量听到歌手(人声11)以及节奏吉他12,同时从其左侧以良好音量听到打击乐器15。用户将以较低音量听到所有其它乐器作为背景。用户的位置和定向21允许以良好音量听到用户身前的吉他16。用户将能够听到本吉他的所有细节,因为所有其它乐器和人声将以较低音量作为背景。用户的位置20是整体性的(integral)。它允许同时以相同音量听到所有乐器和人声。用户将听到他被所有乐器包围。用户在位置20也许将听到与他在录音室中听到的合并相同音乐创作非常接近的音乐创作。所有其它用户的位置和定向中的大多数将产生与声音工程师预混合的创作不同的声音。但是关键是,在收听过程中,音乐混合过程将实时地发生在用户的小工具上。它可能是服务器上的混合过程,并流到用户的小工具和头戴式耳机,但是混合过程将在用户的收听过程中实时地进行。混合过程将取决于用户的动作,包含其在虚拟空间中的位置和定向,这使收听过程具有交互性。
图8是示出了乐队和用户的交互路线的另一个布置的视图。这是与图7上所示相比的图8上的乐器和人声源的另一个布置。路线22示出了用户在播放音乐创作的一部分期间改变其位置的方式。用户将能够在每下一次收听时间以不同的方式在乐器和人声之间的虚拟空间中移动。用户每次都将能够以不同的方式听到音乐创作并感知本音乐创作的新方面和细节。利用声音工程师固定合并和固定的音乐创作,此交互可能性是不可能的。用户总是均等地听到固定的音乐。同时,用户在虚拟空间中将能够沿着不同的路线移动,以考虑音乐创作的不同方面。此交互可能性也是不可能的,因为用户小工具中功能强大的处理器才刚刚出现。处理器现在能够实时地为用户的每只耳朵计算来自每个音乐源的声音。
工业适用性
过去缺少三维空间的计算机和声音引擎,这在音乐作品的录制方法上留下了痕迹。即使由专业声音制作者在两个立体声声道中为用户演奏,相互间隔开的源(声道)的声音也需被录制并混合。它只给用户一种交互性,即音量控制。一个更积极的变体,杜比唱片和再现更加进步,但具有相同的缺点,即先前预录制的声音无法与单独的音源进行交互。用户具有的最小可能性是更改整个作品或单独扬声器的音量,而不是更改声音源的初始录制声道。即使在昂贵的高端设备上,用户也只是可以使用均衡器增强某一频率的声音,更改立体声或杜比声道的音量,而不是更改初始声音源的音量。用户不可能靠近声音源来欣赏附近所带来的细微差别,以自己喜欢的方式转向声音源。但是这些接收先前混合的声音源的可能性是有限的,这不能产生本发明方法所提供的给定效果。
在录音室中,保持了具有未混合声音、未预录制声道的作品的音轨档案。在本发明中提出了一种使用此些录制品的新方法,所述方法将允许用户以新的交互可能性来欣赏音乐和歌曲,从而提供机会来感受每个声音源的细微差别,从而有可能以不同的方式收听相同的作品数千次。他们可以关注自己偏爱的那些源。本方法将使这些录制品的权利持有者获得另外的收入,从而为使用这些档案提供了新的商业可能性。他们只需要基于所述技术创建交互式应用即可。当然,根据本发明的新作品的录制将允许商业上更多不同的音乐作品的使用,特别是由于数十亿用户小工具(例如,智能手机、平板电脑、虚拟现实眼镜和其它便携式装置)的交互可能性。根据本发明,将多声道声音用于具有3D声音的交互式应用将允许创建更多独立的、深刻的和交互式的音乐创作。在这些作品-应用中,用户可以提出艺术家的想法,或者提出介于艺术家和音乐家之间的想法,或者成为创作本作品的中心“地点”,在某些情况下甚至可以成为参与者。关键是,混合过程会在用户的小工具上实时地进行。
它将使用户在一定程度上成为音乐创作者(或音乐变体),成为本音乐的声音制作者或编辑者。用户将能够定位声音源,包含以他所喜欢的方式在空间中以约定或随机方式移动一段时间的动画声音源。用户将有可能使用更高级的原始卡拉OK。他可以通过自己减小音量并去除人声声道,并录制下来以供其它用户进一步重放来使其再现。另一个新颖之处在于,可以经由任何声道(声音源)或经由多个声道在原始卡拉OK中执行替换。例如,如果您是低音吉他手并且喜欢打击乐器,则您可以在您的吉他上与一位伟大的艺术家“一起”弹奏自己喜欢的音乐作品的一部分。他将能够收听自己弹奏了一部分的音乐作品。它可以作为一种新型的“摇滚乐队”交互式游戏的基础,但真实的收听者可以参与到音乐中。将会有更大的可能性和交互性的应用。用先前预录制的音乐(其中声道被组合、混合和合并成立体声声道或杜比)是不可能做到的。
根据本发明,所述方法是每个录制的声道(声音源)以其坐标设置在虚拟空间中。在最简单的情况下,其可能是多点声音源,声音在周围和上方均匀传播。在一些情况下,源在空间中的定向也很重要,因为其在空间中的功率分布的功能取决于定向。例如,可以考虑艺术家头部的声音遮蔽。可以根据场景和/或随机地或在用户的控制下固定或改变应用中的线和定向坐标。用户在本虚拟空间中的坐标也可以更改。声音引擎至少确保了3D声音的主要属性,从收听者去除声音源而产生的声音衰减以及左耳和右耳的不同计算音量(取决于距声音源的距离和朝向连接用户和声音源的线的头部定向)。这些声音属性是熟知的,并且仅针对虚拟空间进行了模拟。对于声音引擎,声音的所有真实属性都可以包含或加上不真实的属性。还有一些另外的熟知的属性:衍射、干扰、声音到达右耳和左耳的时间差、头部或其它障碍物的声音遮蔽的考虑、根据声音频率(频谱特性)的接收属性的改变以及与上面列出的属性组合。用户可以通过声音接收将声音源的位置朝向自己定位。例如,一个或多个歌手将作为人声-乐器团体的吉他手、打击乐手或其它参与者在虚拟空间中相互隔开。声音引擎将根据距离和用户朝向每个源的定位来更改每个源的音量。戴着立体声头戴式耳机的用户将听到声音,并且他的大脑将计算(其神经网络肯定会给出足够的指示)源所在的位置(即使用户没有看到源)。这将使用户有可能以他希望的方式移向声音源并通过声音确定其位置。例如,当人声部分开始时,有可能接近声乐家,而例如当弹奏弹低音吉他时,有可能接近低音吉他手,只要他感到舒服即可。在一些应用中,本可能性将允许用户以他希望的方式预设声音源,并在表现过程中移动声音源。在那里,用户-收听者担任乐队指挥、舞台导演、声音制作者,音量和重音将取决于这些动作。通过详细描述了用于用户应用的这种交互式三维声音,我们注意到这些应用可以以虚拟现实、增强现实的形式(或在个别情况下,通过全景或简单视频)与视觉图像的再现结合在一起。这些交互式应用只能用于声音,但是用于声音计算的引擎将使用虚拟空间中的坐标(从声音源到浸入本虚拟空间的用户的耳朵)。有益的是,用带有乐器和艺术家的视觉图像来补充此应用。艺术家的动画和视觉效果的使用将表现出优势。在虚拟现实应用中实施的照片和视频可能是此应用的一部分。所述应用可以免费使用,其中含付费功能。有用的是,用带有注释的虚拟指引补充此应用,其中可以根据需要关闭其视频显示和/或声音。本指引可以向用户提供被翻译成其母语的歌曲译文。翻译也可以以艺术家或收听者的母语的三维小型图文电视(pony-teletext)的形式关闭。游戏时刻(moment)表现为在其部分开始时的必要时刻跟随动画艺术家、接近乐器或声乐家。专家或粉丝将获得更多点,因为他们了解所述音乐作品并可以预料出接下来的发展。对于粉丝来说,一项有趣的任务是以某一方式定位声音源,以使重放结果与唱片或CD上的已知变体匹配。也可以以点为单位进行估算。通过在基于多声道三维声音的应用中进行收听和交互,用户将搜索最佳路线和点,以找到最佳重放。用户可以共享他录制的某一音乐作品的路线,以便他的亲戚能够像他一样深切地感受到它。用户的化身可以显示在应用中。然后,他和他的伙伴连接到同一空间(也为另一方显示),将被带入一个虚拟空间中。这将是一个共享式收听。他们可以一起讨论事件并进行相互交流。本变体在社交网络中将是最适用的。一种具有多声道三维声音的游戏,其是用户正在寻找的一个发声的好地方。在歌曲期间,可以更改收听的最佳位置(点)。
具有立体声音的应用的界面
用于用户与虚拟空间中的声音源交互的界面变体:
如果用户的移动通过传感器(例如,借助Microsoft Kinect或在Virtusphere中的物理走动)来监视,则用于此收听的界面可能与戴着具有头戴式耳机的虚拟头盔(或未戴虚拟头盔但戴着头戴式耳机)提供在真实空间中进行物理移动的可能性非常不同。在此情况下,他的移动将改变其在虚拟空间中的位置,从而允许接近或远离声音源或改变其朝向它们的定向。通过使用智能手机,例如如果智能手机或另外的传感器将监视其移动(例如,采用Tango技术的智能手机),则可能需物理地走动。具有小工具的一种更常用的变体(其中用户将在虚拟空间中移动,像在计算机游戏中一样)具有各种界面。下面将介绍其中最常见的。使用具有定向传感器和头戴式耳机的虚拟头盔。只需将智能手机与头戴式耳机配合使用,并使用定向传感器来在应用中控制与智能手机成一直线的身体的旋转并进行移动(例如,利用触摸屏或游戏板)。在不与智能手机(如果其没有定向传感器)一起转动的情况下,将智能手机与头戴式耳机配合使用以进行定向,但是使用触摸屏或游戏板以在虚拟空间内旋转和移动。如果用户例如坐在飞机或公共汽车上的扶手椅上并且像在真实空间中定位那样不能在虚拟空间中以其定向轴转动,则最后一种变体是合适的。通过在虚拟空间中旋转(通过旋转其化身),用户实际上可以反转虚拟空间。听到声音源后,例如如果角度为向左倾斜40度,则稍有经验的用户会将空间向右转动,以使声音源在屏幕中间与其相对。并且,如果例如本声音源是敌方对象,他将可以对其射击。或者靠近并对其射击。或将武器转向其方向并射击。或移动(逃跑)到安全的一侧。三维声音在应用中的这种使用将极大地帮助游戏玩家,并成为主要游戏时刻。所描述的界面中的一些可以用于蒙眼玩,在屏幕上没有反映虚拟空间或虚拟对象的情况下对来自应用的声音源发出的声音做出反应。
在显示或不显示虚拟空间的情况下,三维声音中的这种交互式浸入应对用户产生深远而清晰的影响(在潜意识层面上可能更为深刻),这将为广告和指导提供更多可能性。具有三维声音源的空间中的这种交互式浸入将允许盲人或视力受损的人玩三维游戏,因为它提供了在空间中通过声音定向并与他们交互式地交流的可能性。
声音源不仅可以像通常在声音引擎中实施的那样是多点声音源,而且可以使扩展声音源(例如,吉他或钢琴的弦)。如果正确提供,即使来自一个源,也可以产生立体、丰富且自然的声音。
可以用虚拟源补充大厅中的声音,以便向用户提供参与其它虚拟收听者参与的感觉(例如,其它收听者的掌声,周围相互间隔开的赞赏叫喊声)。它可以是用户可以通过收听音乐作品(或交互式应用,例如智能手机)选择的一种变体。例如,老鹰乐队的著名歌曲“加州旅馆”可能是在录音室录制的曲目,但也已经录制了在音乐厅的表演时观众对歌曲的反应。尽管用户可能在自己汽车中、在家中从扬声器或通过头戴式耳机单独地收听音轨,但它可以提供在大厅中收听的参与感。
当歌手离收听者很近时,只有室内音乐以及音乐或音乐作品的沙龙表演显得更靠近。
Claims (10)
1.一种在虚拟空间中向用户交互式地提供音乐创作的方法,所述音乐创作由来自多个相应声音源的录音组成,所述方法包括:
由处理器确定所述多个声音源中的每一个声音源在虚拟空间中的坐标,其中所述多个声音源中的至少两个被布置在虚拟空间中的不同位置并且表示不同的乐器或人声源;
由处理器确定所述用户在所述虚拟空间中相对于所述多个声音源的初始位置和定向;
由处理器经由所述多个声音源激活音乐创作的重放;
由处理器响应于用户输入,在音乐创作的重放期间改变用户在虚拟空间中相对于所述多个音频源的位置和定向,包括:
通过应用头部相关变换函数(HRTF)计算用户的每只耳朵的音量,
根据所述用户在所述虚拟空间中相对于所述多个声音源中的每一个声音源的当前位置和定向实时地向用户的每只耳朵提供来自所述多个声音源中的每一个声音源的声音,并且
根据位于用户身体上的小工具的定向来确定用户在所述虚拟空间中的定向,其中在收听过程中音乐混合过程实时地发生。
2.根据权利要求1所述的方法,包括根据所述用户在物理空间中的定向来确定所述用户在所述虚拟空间中的所述定向。
3.根据权利要求1所述的方法,包括根据物理空间中的定向和位置来确定所述用户在所述虚拟空间中的所述位置和定向。
4.根据权利要求1所述的方法,其中响应于经由界面的输入改变所述用户在所述虚拟空间中的所述位置和定向,所述界面包括触摸屏、操纵杆、鼠标或位置和定向传感器中的至少一个。
5.根据权利要求1所述的方法,进一步包括根据用户输入改变所述多个声音源中的一个在所述虚拟空间中的所述位置和/或定向。
6.根据权利要求1所述的方法,进一步包括将由所述用户提供的声音添加到虚拟空间中的音乐创作。
7.根据权利要求1所述的方法,其中所述音乐混合过程是在所述小工具上实现的。
8.根据权利要求7所述的方法,包括使用带耳机的智能电话作为小工具。
9.根据权利要求1所述的方法,其中虚拟空间与增强现实相关联。
10.根据权利要求1所述的方法,其中虚拟空间与虚拟现实相关联。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2017/053803 WO2019002909A1 (en) | 2017-06-26 | 2017-06-26 | METHOD FOR PROVIDING AN INTERACTIVE MUSICAL COMPOSITION TO A USER |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110915240A CN110915240A (zh) | 2020-03-24 |
CN110915240B true CN110915240B (zh) | 2022-06-14 |
Family
ID=64741199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780092468.XA Active CN110915240B (zh) | 2017-06-26 | 2017-06-26 | 向用户提供交互式音乐创作的方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110915240B (zh) |
WO (1) | WO2019002909A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10924875B2 (en) | 2019-05-24 | 2021-02-16 | Zack Settel | Augmented reality platform for navigable, immersive audio experience |
CN111530069A (zh) * | 2020-04-22 | 2020-08-14 | 歌尔科技有限公司 | 一种游戏手柄控制方法、装置、手游系统 |
CN112037738B (zh) * | 2020-08-31 | 2024-05-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音乐数据的处理方法、装置及计算机存储介质 |
CN115430156A (zh) * | 2022-08-16 | 2022-12-06 | 中国联合网络通信集团有限公司 | 游戏期间的呼叫方法、呼叫装置及主叫用户终端 |
CN115550600A (zh) * | 2022-09-27 | 2022-12-30 | 阿里巴巴(中国)有限公司 | 识别音频数据声音来源的方法、存储介质和电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101843114A (zh) * | 2007-11-01 | 2010-09-22 | 诺基亚公司 | 聚焦于用于音频信号的音频场景的一部分 |
CN103869968A (zh) * | 2012-12-07 | 2014-06-18 | 索尼公司 | 功能控制设备和程序 |
US8805561B2 (en) * | 2001-01-29 | 2014-08-12 | Hewlett-Packard Development Company L.P. | Audio user interface with audio cursor |
CN104054126A (zh) * | 2012-01-19 | 2014-09-17 | 皇家飞利浦有限公司 | 空间音频渲染和编码 |
CN105101027A (zh) * | 2014-05-08 | 2015-11-25 | 大北公司 | 声学环境的实时控制 |
US9544706B1 (en) * | 2015-03-23 | 2017-01-10 | Amazon Technologies, Inc. | Customized head-related transfer functions |
CN106484099A (zh) * | 2016-08-30 | 2017-03-08 | 王杰 | 内容重放装置、具有该重放装置的处理系统及方法 |
US9648438B1 (en) * | 2015-12-16 | 2017-05-09 | Oculus Vr, Llc | Head-related transfer function recording using positional tracking |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9838824B2 (en) * | 2012-12-27 | 2017-12-05 | Avaya Inc. | Social media processing with three-dimensional audio |
US10203839B2 (en) * | 2012-12-27 | 2019-02-12 | Avaya Inc. | Three-dimensional generalized space |
-
2017
- 2017-06-26 CN CN201780092468.XA patent/CN110915240B/zh active Active
- 2017-06-26 WO PCT/IB2017/053803 patent/WO2019002909A1/en active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8805561B2 (en) * | 2001-01-29 | 2014-08-12 | Hewlett-Packard Development Company L.P. | Audio user interface with audio cursor |
CN101843114A (zh) * | 2007-11-01 | 2010-09-22 | 诺基亚公司 | 聚焦于用于音频信号的音频场景的一部分 |
CN104054126A (zh) * | 2012-01-19 | 2014-09-17 | 皇家飞利浦有限公司 | 空间音频渲染和编码 |
CN103869968A (zh) * | 2012-12-07 | 2014-06-18 | 索尼公司 | 功能控制设备和程序 |
CN105101027A (zh) * | 2014-05-08 | 2015-11-25 | 大北公司 | 声学环境的实时控制 |
US9544706B1 (en) * | 2015-03-23 | 2017-01-10 | Amazon Technologies, Inc. | Customized head-related transfer functions |
US9648438B1 (en) * | 2015-12-16 | 2017-05-09 | Oculus Vr, Llc | Head-related transfer function recording using positional tracking |
CN106484099A (zh) * | 2016-08-30 | 2017-03-08 | 王杰 | 内容重放装置、具有该重放装置的处理系统及方法 |
Non-Patent Citations (1)
Title |
---|
《双耳房间脉冲响应的仿真研究》;郭天葵;《2009全国环境声学学术会议》;20091201;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110915240A (zh) | 2020-03-24 |
WO2019002909A1 (en) | 2019-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10595147B2 (en) | Method of providing to user 3D sound in virtual environment | |
CN110915240B (zh) | 向用户提供交互式音乐创作的方法 | |
JP6961007B2 (ja) | 複合現実デバイスにおける仮想および実オブジェクトの記録 | |
JP2023153358A (ja) | 双方向オーディオ環境のための空間オーディオ | |
JP2019527956A (ja) | 仮想、拡張、および複合現実 | |
EP3687190B1 (en) | Mapping virtual sound sources to physical speakers in extended reality applications | |
CN107277736B (zh) | 模拟系统、声音处理方法及信息存储介质 | |
Schütze et al. | New Realities in Audio: A Practical Guide for VR, AR, MR and 360 Video. | |
JP2014094160A (ja) | ゲームシステム、ゲーム処理制御方法、ゲーム装置、および、ゲームプログラム | |
Sodnik et al. | Spatial auditory human-computer interfaces | |
Andreasen et al. | Auditory feedback for navigation with echoes in virtual environments: training procedure and orientation strategies | |
JP6737342B2 (ja) | 信号処理装置および信号処理方法 | |
CN106952637B (zh) | 一种可交互式音乐的创作方法和体验装置 | |
Jenny et al. | Can I trust my ears in VR? Literature review of head-related transfer functions and valuation methods with descriptive attributes in virtual reality | |
Nazemi et al. | Sound design: a procedural communication model for VE | |
US10499178B2 (en) | Systems and methods for achieving multi-dimensional audio fidelity | |
Lim et al. | A Spatial Music Listening Experience in Augmented Reality | |
Nuora | Introduction to sound design for virtual reality games: a look into 3D sound, spatializer plugins and their implementation in Unity game engine | |
Kapralos et al. | Advanced sound integration for toy-based computing | |
Dehaan | Compositional Possibilities of New Interactive and Immersive Digital Formats | |
Röber et al. | Authoring of 3D virtual auditory Environments | |
Harju | Exploring narrative possibilities of audio augmented reality with six degrees of freedom | |
Corah | A framework for site-specific spatial audio applications | |
Gutiérrez A et al. | Audition | |
Madden | Developing spaceJam: The new sound spatialization tool for an artist and novice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |