CN105493181A - 多维虚拟学习系统和方法 - Google Patents
多维虚拟学习系统和方法 Download PDFInfo
- Publication number
- CN105493181A CN105493181A CN201480047214.2A CN201480047214A CN105493181A CN 105493181 A CN105493181 A CN 105493181A CN 201480047214 A CN201480047214 A CN 201480047214A CN 105493181 A CN105493181 A CN 105493181A
- Authority
- CN
- China
- Prior art keywords
- participant
- sound
- map
- speech
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000008859 change Effects 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000002592 echocardiography Methods 0.000 claims description 4
- 238000011022 operating instruction Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 29
- 230000001131 transforming effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 21
- 238000012546 transfer Methods 0.000 description 18
- 210000005069 ears Anatomy 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 5
- 239000011521 glass Substances 0.000 description 5
- 230000005055 memory storage Effects 0.000 description 5
- 206010048865 Hypoacusis Diseases 0.000 description 4
- 240000006409 Acacia auriculiformis Species 0.000 description 3
- 244000287680 Garcinia dulcis Species 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004087 circulation Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 101100507312 Invertebrate iridescent virus 6 EF1 gene Proteins 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000002224 dissection Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/72—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B3/00—Line transmission systems
- H04B3/02—Details
- H04B3/46—Monitoring; Testing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/02—Spatial or constructional arrangements of loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/40—Visual indication of stereophonic sound image
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Data Mining & Analysis (AREA)
- Stereophonic System (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
一种用于生成三维声音会议的过程和系统,包括:生成具有多个位置的虚拟地图,每个参与者选择所述位置之一,确定从每个位置到所述地图上的每个其它位置的方向,确定从每个位置到所述地图上的每个其它位置的距离,接收来自每个参与者的声音,对所接收的声音进行混音,将混音后的声音变换为双耳音频,以及经由与发言的参与者的虚拟位置相关联的扬声器将所述双耳音频声音定向到每个参与者。结果是清楚的声音,所述清楚的声音给聆听的参与者带来发言的参与者相对于聆听的参与者而位于何处的感觉。
Description
背景技术
电话会议、会议和距离学习系统共同具有类似的缺点:参与者不能区分和理解同时发言的多个语音。电话会议是多人之间的常见的通信方法。在电话会议期间,难以进行其中多于一个的人发言的会话。这是由现有的电话会议系统将多个发言者的语音混音到一起的方式所导致的。距离学习系统(例如在线研讨会和虚拟会议室等)也具有相同的问题。虽然涉及虚拟会议室的距离学习系统是已知的,但是不存在用于一次多于一个的人发言、其中聆听者可以容易地区分发言者的方式。此外,整个体验相对地是一维的。需要的是其中参与者可以感知到他或她正在真实地体验实际的会议室环境的增强的虚拟学习系统,其中每个用户或参与者具有区分多个语音的能力。
发明内容
本公开直接设法解决该问题。在本公开的一个实施例中,人向系统的另一用户讲话,用户所说和听到的词不是仅来自脱离实体的语音,而且来自在预定位置处的人,例如在虚拟会议室、在线研讨会或会议中紧挨着该用户就坐的人。因此,根据本公开的系统涉及新颖的3D声音会议系统。3D声音会议系统通过恢复现实生活中存在的声音提示,使得多于一个的人同时发言的会谈成为可能。具体地,3D声音会议中的每个人与虚拟房间的地图中的位置相关联。该房间可以在电话会议、在线研讨会、电子会议、电子聊天室、虚拟会议室或任何存在声音的小组会议中使用。然后该声音被变换以使得虚拟房间中的每个人听到其他人的声音,就好像他们的语音源自其在虚拟房间中的特定位置一样。以这种方式,声音中的方向信息允许人类更容易地对语音进行相互区分。因此,如果多个人同时发言,则个人可以区分不同的语音以及每个语音的方向。这允许小组会话以与现实生活相类似的方式电子化地发生,由此增强了在这种环境中的体验。
贯穿本说明书,涉及会议参与者、多个参与者等等。应当理解,参与者可以是聆听的参与者和/或发言的参与者。此外,涉及会议、多个会议和开会,并且应当理解会议是任何形式的会议通信,包括但不限于电通信、会议电话、虚拟会议室、在线研讨会、电子小组会议、以及会议通信形式的组合。此外,应当理解,会议可以包括n个参与者,其中n表示任何数字。
根据本公开的一个实施例是一种多维声音会议方法。该方法包括以下操作:生成具有多个预定位置的虚拟房间的地图;确定所述虚拟房间中从每个预定位置到所述虚拟房间中的每个其它预定位置的方向;将会议参与者分配到所述地图上的每个位置或将会议参与者与地图上的每个位置相关联;分配与每个位置相关联的虚拟扬声器;接收来自所述参与者中的发言的参与者的声音;将所述语音声音转换为与每个所述预定位置相对应的转换的声音,使得所述转换的声音对应于其距被分配给所述参与者中的发言的参与者的位置之一的方向,从而将所述声音定向到与所述地图上的所述发言的参与者的位置相关联的虚拟扬声器;以及将所述定向到虚拟扬声器的声音变换为双耳音频声音。该虚拟地图可以包括在所述位置周围的声音环绕(soundring)或“声音环”。在这样的实施例中,每个虚拟扬声器与所述声音环绕周围的位置相关联。
在一个实施例中,所述虚拟房间可以具有限定所述房间的多个壁。这些壁可以有利于将回响或回响引入到发送给在所述声音环绕周围的每个位置处的每个虚拟扬声器的声音中。可以根据从虚拟房间中的发言的参与者向具体的聆听的参与者发送的声音相对于诸如另一人、座位或一个或多个限定所述房间的壁之类的对象的入射角和反射角来确定回响的数量。
在一个实施例中,一种对多个参与者之间在会议期间的三维音频体验进行仿真的方法包括:接收多个语音,将每个语音与独特的参与者相关联;向每个独特的参与者呈现虚拟房间的虚拟地图,所述虚拟地图示出了所述房间中的等于或多于所述独特的参与者的数量的多个不同位置;每个参与者选择所述虚拟房间内的在所述地图上的不同的位置;根据每个语音在所述地图上的位置,将每个语音改变为改变的语音;以及将所述改变的语音发送给每个其它的参与者。所述方法还包括:确定从所述房间中的每个位置到所述虚拟房间中的每个其它位置的方向,并将不同的发言者与所述虚拟房间中的每个不同的位置相关联。每个改变的语音优选地可以根据与发言者在所述房间中的位置相关联的发言者的方向来确定。
本公开的另一实施例是一种用于对会议中的三维音频体验进行仿真的方法。该方法包括:生成虚拟房间的地图,虚拟房间在所述地图上具有多个不同的预先确定的位置,向多个会议参与者呈现所述地图,以及或者使得每个参与者选择所述不同位置之一,或者向每个参与者分配所述位置中的不同位置。然后该系统接收来自所述多个参与者中的发言的参与者的语音。然后根据所述多个参与者中的发言的参与者的所选择的位置来改变所接收的语音,然后根据从所述发言的参与者的所选择的位置到每个其它参与者的方向,将改变的语音发送给每个其它参与者。所述方法还可以包括将虚拟扬声器分配给所述地图上的每个预先确定的不同的位置,并将来自发言的参与者的语音从分配给所述发言的参与者的虚拟扬声器发送给每个其它参与者。
根据本公开的生成三维声音会议的方法的实施例可以包括:生成具有多个位置的地图,每个参与者选择所述位置之一,确定从每个位置到所述地图上的每个其它位置的方向,确定从每个位置到所述地图上的每个其它位置的距离,接收来自每个参与者的声音,根据发言者的选择的位置对所接收的声音进行混音,将混音的声音变换为双耳音频,以及经由与发言的参与者的位置相关联的虚拟扬声器将所述双耳音频定向到每个参与者。
当结合附图阅读下面的详细说明时,本公开的实施例的另外的特性、优点和特征将变得清晰。
附图说明
图1是用于不具有来自高度变化的音响效果且不具有回响的平面房间的3D声音会议过程的流程图。
图2是示出方向性声音且不具有高度变化的效果或回响的代表性小型会议室的图。
图3是具有方向性声音和虚拟扬声器的声音环绕。
图4是示出了声音的直接路径和回响路径的会议室的2.5D地图,具有一些3D特征的二维地图。
图5是具有简化的回响的2.5D会议室地图。
图6是具有方向性声音和虚拟扬声器的声音头盔。
图7是3D声音会议过程的流程图。
图8是代表性的100个座位的厅的图,其中所述座位已被分组成区且区已被分组成超级区。
图9示出了图示了根据本公开的实施例的客户端装置的示意图的示例。
图10是图示了根据本公开的实施例所利用的计算机的内部架构的框图。
具体实施方式
在下面的描述中,为了说明的目的,提出了大量的具体细节以提供对所述描述的透彻理解。然而,对于本领域的技术人员而言明显的是,可以在不具有这些具体细节的情况下实践本发明。在其它情况下,以框图形式示出了结构和装置以避免对所述描述的模糊。
在本说明书中提及“一个实施例”或“实施例”意味着结合实施例描述的具体的特性、结构或特征被包括在本发明的至少一个实施例中。词语“在一个实施例中”在本说明书中各处的出现不一定都是指相同的实施例,也不一定是与其它实施例相互不包括的单独的或替代性的实施例。此外,描述了可以被一些实施例包含而不被其它实施例包含的各种特征。类似地,描述了可以被一些实施例需求而不被其它实施例需求的各种需求。在下面的描述中将始终参考发言的参与者和聆听的参与者。取决于参与者在那个时刻做何事,每个参与者可以是发言的参与者或聆听的参与者。此外,即使在参与者发言时,也应当理解他或她可以同时聆听。
简明地,3D声音是包含使聆听者相信声音源处于距该聆听者的特定的位置、方向和距离的提示的声音。3D声音与环绕声音的区别在于环绕声音只尝试用声音环绕你而基本上不能精确地再现特定的位置、方向和距离。术语3D声音指的是如下的事实:大多数环绕声音局限于用声音环绕你,好像源自环绕你的头部的二维平面、盘或环一样,而3D声音可以好像源自三维上的任何位置、方向和距离,例如在你头部周围的球体、球或头盔。
技术上,商业软件使用3D声音来指示机器产生的双耳音频。在双耳音频中,一对麦克风被置于仿真头或真实的人的耳道内,以进行记录。当利用在接近于麦克风的位置的聆听者中的位置处——在耳道内或接近耳道-—的头戴受话器或耳机或被制造用于产生这些记录的声音的其它方式来回放记录时,则在回放上再现原始记录的聆听者感知到的方向提示,并且聆听者精确地感知到3D声音。
可以利用置于仿真头内的麦克风来以双耳方式记录声音。大多数声音记录不是利用仿真头来进行的。这些声音记录可以被变换为产生将被呈现的所有方向提示的记录,使得所述记录被利用仿真头来进行。这是头的解剖的功能。该功能被称作头相关传输函数(HRTF)。作为示例,被包括到HRTF中的三个重要的方向提示是双耳时差(ITD)、双耳声级差(ILD)、以及耳廓中的回响。ITD是声音在各个耳朵处的到达时间的差——来自左方的声音到达左耳比到达右耳略微提前。ILD是响度的差——来自左方的声音在左耳处比在右耳处略微大,这是因为头部吸收一些声音并产生“声影”,右耳在“声影”内。耳廓中的回响指的是耳廓的形状和解剖特性对声音的反射,耳廓是构成耳朵的可见部分的组织的扁平物。所有这些效果被组合为声音的一次变换成3D声音,并且该变换的质量和性能是各种3D声音商业软件供应商之间的竞争课题。
在图1的流程图中示出了产生3D声音会议的过程/方法100的示例性实施例。该过程在操作102中开始,其中在软件中产生或在主机计算机上更新和显示虚拟会议室地图200,在图2中示出了虚拟会议室地图200的示例。该地图可以在可能的参与者的计算机显示器屏幕上调用。然后每个可能的用户,即,参与者“Un”202经由互联网从与该主机计算机上的软件相连接的远程计算机访问该地图200。
一旦地图200被产生并在多个可能的参与者的远程显示器上向他们显示,则每个可能的参与者选择位置,例如Un202,即,图2中示出的地图上的座位之一。或者,给每个参与者分配地图200上的位置。一旦所期望的数量的参与者均已在他们的显示器屏幕上选择了座位,或已被分配了地图上的座位,则控制转移到操作104。
在操作104中,每个参与者发言,从每个参与者获取声音,同时发言被调平(level)。这可以初始地在预先确定的时间块期间通过要求参与者说他或她的名字或说出预先确定的短语等来完成,然后在操作104中在每个时间间隔内自动地更新。除了提供一致的音量和验证麦克风操作之外,调平器104还提供以下重要功能:去除关于发言的参与者相对于物理麦克风位于何处的方向提示,使得系统可以将这些提示替换为计算机产生的关于发言的参与者位于虚拟房间地图中何处的提示。当针对每个发言的参与者对声音进行调平时,控制转移到操作106。
在操作106中,针对每个聆听的参与者产生3D声音。聆听的参与者被标识为“Ln”。更具体地,说明了基本的3D声音产生。这里在操作106中接收的声音被转换为针对每个聆听的参与者的转换的声音。根据每个位置距与产生所接收的声音的发言的参与者相关联的位置的方向,对于图2所示的地图上的每个位置而言该转换的声音略有不同。例如,在具有圆形中的8个位置的虚拟房间中,根据位置U1和U3、U1和U4、U1和U5、U1和U6等之间的具体方向,从位置U1中的发言者接收的转换的声音将被不同地改变以用于发送给U2至U6中的每个位置。例如,聆听的参与者204(U4)将感知到来自位置205(U5)中的发言者的转换的声音,好像该声音来自他/她的左方一样。类似地,聆听的参与者204(U4)将感知到来自位置203(U3)中的发言者的转换的声音,好像该声音来自他/她的右方一样。因此,根据聆听的参与者的位置距发言的参与者的方向而不同地转换从位置206(U1)接收的转换的声音。然后控制转移到查询操作108。
查询操作108询问是否已选择软件功能,以根据距发言的参与者的距离,对每个发言的参与者进行衰减。如果答案为是,则控制转移到操作110。如果查询操作108中的答案为否,则控制转移到操作112。
在操作110中,根据从聆听的参与者到发言的参与者的距离,部分地或完全地对向每个聆听的参与者发送的每个发言的参与者的语音进行衰减。然后控制转移到操作112。换言之,如果存在大桌子的地图,则与坐得与聆听的参与者更接近的参与者相比,在桌子末端处的参与者听起来将更远。
在操作112中,确定从地图200上的每个聆听的参与者Ln的位置来看每个其它参与者(即,每个其它发言的参与者Sn)的方向。然后该信息被存储在例如与会议相关联的数据库中的查找表中以用于即时存取。然后控制转移到操作114。
在操作114中,基于每个发言的参与者在虚拟房间中的相对位置及其距每个相邻的发言的参与者的方向,将来自每个发言的参与者Ln的声音与每个相邻的发言的参与者的声音混音在一起。然后控制转移到操作116。
在操作116中,将来自虚拟房间中的每个发言的参与者的混音的声音变换成双耳音频。然后控制转移到查询操作118。在查询操作118中,向虚拟地图上标识的每个聆听的参与者查询他或她是否实际戴有头戴耳机。
应当理解,替代性地可以不按顺序地完成该操作118,例如可以作为操作104中的声音调平活动的一部分,并在这里可以仅检查该信息或假设该信息尚未改变。然而,为了描述的目的,将其置于此处。此外,例如可以每两个循环、每三个循环、每四个循环地实现查询操作118,而不是如在此所述的在每个循环期间实现。
如果聆听的参与者正戴着头戴式耳机,则控制转移到操作120,其中声音被排队以发送给每个聆听的参与者Ln。或者,如果聆听的参与者未戴着头戴式耳机,则控制转移到操作122。
在操作122中,对去向每个参与者Ln的双耳音频信号执行串音抑制操作,以提供与利用头戴式耳机所实现的效果相同的利用扬声器的效果。然后控制转移到操作120,其中双耳声音被排队以发送给聆听的参与者Ln,并随后被自动发送。应当理解,可选地可以不按顺序地完成发送,例如在查询操作124之后完成,如果不存在更多的参与者要考虑的话。然而,为了本说明的目的,在此描述发送。
当双耳声音被提示时,则控制转移到查询操作124。查询操作124询问在该特定的时间块期间在该会议的虚拟房间中是否存在任何更多的参与者。如果是,则控制在操作126中转移回到操作106,其中针对聆听的下个参与者Ln产生3D声音。然后重复从106到124的序列,直到在查询操作124中不存在更多的聆听的参与者。当这发生时,控制转移到操作128,其中进行查询其是否是会议结束。如果不是,则控制转移到操作130,操作130指示程序对下个时间块重复从102-128的所有操作。
操作100的该序列相对快地发生,使得其可以对于会议中的参与者而言是透明的。例如,过程100中的操作序列中设置的每个迭代中涉及的时间块可以典型地在1至500毫秒的范围内。
可以进行3D声音会议以仿真各种真实的和虚拟的会场或房间。针对小型的、中型的、和大型的会议使用不同的实施例,尽管用于较大型会议的复杂特性也当然可以应用于较小型的会议,并且较小型的会议的方法可以应用于较大型的会议。
对于小会场,典型地是那些具有1-25个参与者的会场例如图2中的会议室200,我们典型地使用图1的无回响方法。在会议101的初始时,产生会议室地图例如200,并且也称为用户U0至Un的n个参与者中的每个选择座位。或者,可以向n个用户中的每个分配会议室地图中的座位。当我们关注每个用户U0至Un的发言功能时,每个用户U0至Un也被称为发言的参与者S0至Sn,当我们关注每个用户U0至Un的聆听功能时,每个用户U0至Un也被称为聆听的参与者L0至Ln。
接下来,我们使用声音调平器104来对来自每个发言者的声音进行调平。声音调平将所有声音改变到相似的音量,并且存在商业上可用的声音调平器,例如来自BitCauldron公司的AudioCauldronCompressorEngine。典型地使用声音调平以使得一首歌不会显著地比在它之前或之后的歌声音大。在该情况下,我们将由于不同的原因使用声音调平器:音量水平可以告诉我们某人正在说话的声音有多大,但是它也告诉我们发言者距其物理麦克风有多远。对于3D声音会议,我们旨在调平声音以去除与发言者距其物理麦克风多远相关的信息,使得我们随后可以使用衰减器以旨在添加负的或正的音量信息,所述音量信息传达绘制地图的房间中的发言者(发言的参与者)与聆听者(聆听的参与者)之间的距离。
不是所有的发言者都根据针对所有聆听者的距离而衰减他们的音量。判定108示出了我们可能想要对特定的聆听者(聆听的参与者)选择性地对特定的发言者应用或者完全衰减、或者部分衰减、或者无衰减。存在这样做的若干理由。首先,衰减信息对听力不佳的人而言可能损害多于益处,并且与音量所传递的距离信息相比,该听力不佳的人将更多地受益于较大的声音。我们将该特性称为助听清晰(HearingAidClarity),并且该特性可以被每个个别的倾听者打开或关闭。助听清晰也可以被会议或聚会的主持人/管理员打开和关闭。
第二,在存在一个指导者或主持人进行大多数对话的情况下,可能期望主持人的音量使得主持人好像在距每个人非常近的距离处。对于主持人,所有的其它方向提示仍然存在,并且对于所有其它发言者(发言的参与者),所有的方向提示仍然存在,我们仅仅使得主持人听起来好像你坐在前排的座位上。当使得主持人的语音听起来距发言的参与者短距离而其它情况下保持地图时,我们称该特性为靠近指令(UpCloseInstruction)。靠近指令可以应用于多于一个的主持人,并且可以被每个个别的聆听者(聆听的参与者)打开和关闭,或者可以被会议或聚会的主持人/管理员打开和关闭。上述的过程可以在云中执行,或者可以将大部分计算处理推送到终端用户的装置,例如他或她的计算机、台式计算机、平板计算机、计算机、智能手机、电子玻璃或其它信息处理装置。
在管理从每个发言的参与者到聆听者(即,聆听的参与者)的音量和距离提示之后,在计算器操作112中使用会议室地图200的几何形状来计算从发言的参与者到聆听的参与者的声音的方向。每个方向可以被表示为图3中的声音环300上的角度。声音环300可以被视觉表示为在聆听的参与者(例如聆听的参与者304)周围的环,其表示声音方向相对于聆听的参与者304的面向前的角度(如同从图3的俯视图中聆听的参与者的鼻子305的位置所指示的)的角度。
声音环300上的每个声音可以以任意角度到达。然后将沿着声音环的以任意角度的声音混音成固定数量的已放置了虚拟扬声器之处的相邻角度。可以存在很大数量的虚拟扬声器,例如720个扬声器,每半度一个扬声器,使得每个声音可以最容易地前进到最近的虚拟扬声器。更常见的是使用较小数量的虚拟扬声器,例如每五度一个虚拟扬声器,或甚至总共五个虚拟扬声器,如在流行的ITU-RBS775配置中被示出为扬声器306L、306R、306C、306LS和306LR。如果声音直接落在虚拟扬声器上,则声音被简单地完全混音到该虚拟扬声器中,例如声音307落在虚拟扬声器306RS上。如果声音直接落在两个扬声器之间,则声音可以被均匀地混音到这两个扬声器中,如同声音302被混音到虚拟扬声器306R和306RS一样。如果声音不均匀地在扬声器之间,例如在扬声器306L和306LS之间的声音301部分,则声音可以被混音到最近的邻近扬声器,或者在相邻的虚拟扬声器之间被成比例地混音,后者是混音器114所使用的方法。
然后声音从声音环上的虚拟扬声器变换为在该实际情况下将被人耳感知到的声音,被称为双耳声音。从用于虚拟扬声器的声音到双耳声音的转换器操作116可从商业软件包获得,所述商业软件包例如来自BitCauldron公司的AudioCauldronHeadphoneEngine。
双耳声音旨在用于头戴式耳机聆听。查询操作118检查用户是否戴有头戴式耳机。如果用户正戴有头戴式耳机,则声音准备好通过该过程被向前发送。如果用户并未戴有头戴式耳机,而是正用外部物理扬声器聆听,则我们必须抑制由物理扬声器引入的串音效应,以维持精确的方向信息。串音抑制器操作122使用可从商业软件包获得的串音抑制,例如当前可经由来自BitCauldron公司的AudioCauldronSpeakerEngine获得。
对于这一点所描述的过程产生了针对一个聆听的参与者的方向性声音。必须重复该过程,以产生针对每个聆听的参与者的声音。所有这些处理声音以在单独的短的时间间隔内用于所有的聆听的参与者,例如在1-500毫米内。然后必须在下个短的时间间隔内重复该过程。
对于小的会场,典型的是具有1-25个参与者的会场,例如图2中的虚拟会议室200,我们典型地使用图1的无回响方法。对于中型大小的会场,典型的是具有26-100个参与者的会场,存在更多的人坐得靠近在一起,并且通过添加附加的回响差别提示而将一个发言的参与者与另一发言的参与者相区分可以是有帮助的。可以将任何类型的回响或缺乏回响应用于任何房间尺寸,并且这里描述的仅仅是示例性的。因此,房间地图200的房间可以用于对回响提示的详细的概念性描述。
房间地图200示出了从发言的参与者U5205到聆听的参与者U0210的直接声音路径201。该直接路径不是唯一的路径声音行进。图4示出了回响路径,该路径经由房间中的表面的反射来行进。房间地图400L示出了与房间地图200相同的房间地图,并且示出了与路径201相同的方向路径401L。图4还示出了左壁的回响路径403、右壁的回响路径404、后壁的回响路径405、以及前壁的回响路径406。声音在这些路径上较晚地到达,这是因为声音要行进的路径更远。这些路径也以与直接路径401L不相同的位置和方向到达声音环407。
房间400L的二维地计算的(2D)回响足以用于添加专用于每个发言的参与者的回响提示。当考虑到高度时,可以将回响制成更为自然的声音。以两种方式考虑高度。第一,房间地图400R示出了直接路径401R也具有离开桌子的回响路径408和离开天花板的回响路径409。第二,所有的参与者不再需要处于相同的高度。例如,主持人可以正站着并且所有其它的参与者可以坐着。该附加的高度信息并不表示所有可能的三维(3D)信息,而是比二维信息显著更多的信息,所以我们称其为2.5D信息。
2.5D和3D计算向声音环引入了新的维度。具体地,其现在允许声音的方向不需要落在人的头部周围的声音环上,而是可以源自任何方向,使得声音环成为声音球。我们排除了来自所述声音球的位于你身体内和你肩膀内的方向,并设想声音球的一部分,我们称其为声音头盔。图6示出了作为离散点的集合的声音头盔602和602。虚拟扬声器可以被放置到每个点上、点之间、或点的子集上。会议系统产生了来自对房间的测绘的高度(elevation)信息,可以包括倾斜的地面或台阶、多个水平面、不同高度的人和物、以及确定声音和回响声音的、参与者的高度的其它信息。
实施例可以通过将每个回响路径的声音置于如图4所示的声音环407或声音头盔上的不同位置处来计算回响。为了使用2.5D和3D回响这二者并最大化在直接路径的方向上的声音提示的能量,我们通过将所有回响路径的声音移动到直接路径与声音头盔相交的位置(如图6所示,正视图601中的点603F和侧视图602中的点603S)来简化回响。这些简化的路径也在图5中示出用于声音地图500L和500R。简化的回响可以给每个发言的参与者提供略微不同的声音,并改善进行小组会谈(特别是在具有26至100个人的房间中的小组会谈)时的体验,但是其可以对具有任何数量的人的房间执行。
对于大型会场,典型地是具有多于100个人的房间,我们的大型会场的实施例也使用块和超级块。块是人的连续的组。图8示出了100个座位的大厅800。座位801中的人是块802的成员。超级块是块的连续的成。例如,图8中标示的超级块880由块807和808构成。
对于具有100个或更少的人的组,每个人可以参与小组会谈。对于多于100个人的组,使多一些的发言的参与者一起参加讨论变得较为不可行,很可能参与者在诸如运动场之类的会场中且许多参与者一起发言。在运动场设置中,通过使用块和超级块,可以显著地减少计算电力需求而不会明显地改变质量。块的使用涉及三个步骤。在将会场划分成块之后,我们忽略与聆听的参与者相邻或包含聆听的参与者的所有块的块,并计算来自个别的发言的参与者的声音。接着,对于在合理的距离处的块,将一个块中的所有发言的参与者一起混音成一个发言的参与者,并且用一个方向处理该一个发言的参与者。最后,对于发言的参与者的块,很远的块可以被混音成超级块,并且可以将该超级块作为一个发言的参与者来处理。
通过采用图1的小型会场方法,对中型会场添加回响,并对大型会场添加块和超级块,可以产生用于任何会场的提供3D声音会议的操作的流程图。该过程在图7中示出。
在聚会的初始操作701中产生虚拟会议室地图,例如200。在一个实施例中,管理员选择用于n个用户中的每个的座位。在另一实施例中,n个用户U0至Un中的每个选择他或她自己的虚拟座位。当我们关注每个用户的发言功能时,每个用户U0至Un也被称为发言的参与者S0至Sn,当我们关注每个用户的聆听功能时,每个用户U0至Un也被称为聆听的参与者L0至Ln。
接下来我们在操作702中使用声音调平器来对来自每个发言的参与者的声音进行调平。声音调平将所有声音改变为类似的音量,并且存在商业上可用的声音调平器,例如来自BitCauldron公司的AudiocauldronCompressorEngine。典型地使用声音调平以使得一个语音,例如一首歌不会显著地比在它之前或之后的歌声音大。在该情况下,我们将由于不同的原因使用声音调平器:音量水平可以告诉我们某人正在说话的声音有多大,但是它也告诉我们发言的参与者距其物理麦克风有多远。对于3D声音会议,我们旨在调平声音以去除与发言的参与者距其物理麦克风多远相关的信息,使得我们随后可以使用也提供衰减的回响器操作704以旨在添加音量信息,所述音量信息传达绘制地图的房间中的发言的参与者与聆听的参与者之间的距离。所述声音调平还去除了伪造信息距离提示,使得当声音成为双耳声音时,BitCauldronengine可以给声音提示添加适当的距离,并且声音提示不会失真,这是因为例如一个发言者距他/她的麦克风5英尺。
回响操作704使用以下方法来计算回响:使得所有的回响路径到达声音头盔上的同一点,然后将相加到一起的所有声音路径分配给该方向。
关注的现象在大型会场中发生,例如图8中描绘的那样。声音的速度约为每毫秒1英尺(约每秒1000英尺),并且网络延迟典型地约为50ms到100ms。延迟偏移块操作705从由空气导致的实际延迟中减去期望的网络延迟。例如,如果声音路径在距离上为100英尺,并且期望的网络延迟为约50ms,则偏移块705将旨在仅向所述路径增加50ms的延迟,并且所增加的延迟加上网络延迟所得的总延迟将等于所需的100ms的延迟。
接下来,如果正被处理的发言的参与者的声音实际上是块或超级块的一部分,则偏移块操作706进一步减小增加的延迟,以使计算所述块或超级块所需要的时间偏移。
不是所有的发言的参与者都根据针对所有聆听的参与者的距离而衰减他们的扬声器的音量。调节操作707示出了:我们可能想要对针对特定的参与聆听者对特定发言者选择性地应用或者完整的衰减、或者部分衰减、或者无衰减。存在这样做的若干理由。首先,衰减信息对听力不佳的人而言可能损害多于益处,并且与音量所传递的距离信息相比,该听力不佳的人将更多地受益于较大的声音。我们将该特性称为助听清晰度,并且该特性可以被打开或关闭。
第二,在存在一个指导者参与者或主持人在会议中进行大多数对话的情况下,可能期望主持人的音量使得主持人好像在距每个人非常近的距离处。对于主持人,所有的其它方向提示仍然存在,并且对于所有其它的发言的参与者,所有的方向提示仍然存在,我们仅仅使得主持人参与者听起来好像聆听的参与者坐在前排的座位上。当使得主持人的语音听起来距发言的参与者短距离而在其它情况下保持地图时,我们称该特性为靠近指令。靠近指令可以应用于多于一个的发言的参与者,并且可以被打开和关闭。
随着对从每个发言的参与者到聆听的参与者的音量和距离提示的管理一起,在计算器操作708中使用会议室地图200的几何形状来计算从发言的参与者到聆听的参与者的声音的方向。在图1中,每个方向被表示为图3中的声音环300上的角度。这里,每个方向被表示为图6所示的声音头盔上的角度和高度。
声音头盔上的每个声音可以以任意的角度和高度到达。然后将沿着声音环的以任意角度的声音混音到声音头盔上的固定数量的已放置了虚拟扬声器之处的位置中。可以存在很大数量的虚拟扬声器,例如720个扬声器,使得每个声音可以容易地前进到最近的虚拟扬声器。更常见的是使用较小数量的虚拟扬声器,例如在将虚拟扬声器散布在声音头盔周围的各种配置中布置的11个、18个或22个扬声器。如果声音直接落在虚拟扬声器上,则声音被简单地完全混音到该虚拟扬声器中。如果声音直接落在两个扬声器之间,则声音可以被成比例地混音到这两个扬声器之间。在一般情况下,声音方向将在声音头盔的弯曲表面中的任意点处,并将被成比例地混音到四个周围的扬声器中,这是混音器操作709所使用的方法。
然后声音从声音头盔上的虚拟扬声器变换为在该实际情况下将被人耳感知到的声音,被称为双耳声音。从虚拟扬声器到双耳声音的转换器操作710可从商业软件包获得,所述商业软件包例如来自BitCauldron公司的AudioCauldronHeadphoneEngine。然后控制转移到查询操作711。
双耳声音旨在用于头戴式耳机聆听。查询操作711检查用户是否正戴有头戴式耳机。如果用户正戴有头戴式耳机,则声音准备好通过该过程向前发送,双耳声音被排队用于发送给聆听的参与者LN,然后可以被自动地发送。
如果用户并未戴有头戴式耳机,而是正用物理扬声器聆听,即,查询操作中的答案为否,则我们必须抑制由扬声器引入的串音效应。因此控制转移到操作712。串音抑制器操作712使用可从商业软件包获得的串音抑制,所述商业软件包例如来自BitCauldron公司的AudioCauldronSpeakerEngine。
然后如此产生的双耳声音被排队以用于发送,并被发送给聆听的参与者LN。应当理解,例如在查询大多数参与者之后在不存在要考虑的更多的参与者的情况下,可以不按顺序地完成向聆听的参与者LN的发送。然而,为了本说明的目的,在此描述发送。
对于这一点所描述的过程产生了针对一个聆听者的方向声音。需重复该过程,以产生针对每个聆听者的参与者的声音。所有这些处理声音以在单独的短时间间隔内用于所有的聆听者。然后需在下个短时间间隔内重复该过程。典型的短时间间隔在1到500毫秒的范围内,例如9、10或11毫秒。所述过程检查更多的参与者,然后检查看看会议是否仍在进行。如果是,则该过程在下个时间间隔内重复。上述的过程可以在云中执行,或者大部分计算处理可以被推送到终端用户的装置,例如他或她的计算机、台式计算机、桌上计算机、智能手机、电子眼镜或其它信息处理装置。
从本说明来看,将认识到一些方面包含在用户装置中、一些方面包含在服务器系统中、以及一些方面作为整体在客户端/服务器系统中使用。所公开的实施例可以使用硬件、指令程序、或硬件和指令程序的组合来实现。
一般地,执行用于实现实施例的例程可以被实现为操作系统的一部分或被称为“计算机程序”的特定的应用、组件、程序、对象、模块或指令序列。计算机程序典型地包括一个或多个指令,所述指令被设置在计算机中的各个存储器和存储装置中的各个时间处,并且当被计算机中的一个或多个处理器读取和执行时,所述指令使得计算机执行对于执行涉及所述各个方面的要素而言必需的操作。
虽然已经在全功能计算机和计算机系统的背景中描述了一些实施例,但是本领域的技术人员将认识到,各种实施例能够被分配作为各种形式的程序产品,并能够被应用,而不管用于实际产生所述分配的机器或计算机可读介质的具体类型如何。
计算机可读介质的示例包括但不限于可记录的和不可记录的类型的介质,例如易失性存储器和非易失性存储器装置、只读存储器(ROM)、或随机存取存储器。在本说明中,为了简化说明,将各种功能和操作描述为由软件代码执行或由软件代码导致。然而本领域的技术人员将认识到,这种表述的意思是所述功能是由诸如微处理器之类的处理器对代码的执行而导致的。
图9示出了图示客户端装置905的示意图的一个示例,本公开的示例性实施例可以在所述客户端装置905上实现。客户端装置905可以包括能够例如经由有线网络或无线网络发送或接收信号的计算装置。客户端装置905可以例如包括台式计算机或便携式装置,例如蜂窝电话、智能电话、显示寻呼机、射频(RF)装置、红外(IR)装置、个人数字助理(PDA)、增强实现眼镜、手持计算机、平板计算机、便携式计算机、数字摄像机、机顶盒、可穿戴计算机、组合了各种特性(例如前述装置的特性)的集成装置等等。
客户端装置905可以在能力或特性方面变化。所要求保护的主题旨在涵盖广泛的可能的变化。例如,蜂窝电话可以包括数字小键盘或有限功能的显示器,例如用于显示文本、图画等的单色液晶显示器(LCD)。然而相反地,作为另一示例,具有网络能力的客户端装置可以包括具有高功能度的显示器的一个或多个物理键盘或虚拟键盘、大容量存储器、一个或多个加速计、一个或多个陀螺仪、全球定位系统(GPS)或其它位置识别类型的能力,例如触摸感应颜色2D或3D显示器。其它示例包括增强实现眼镜和平板计算机。
客户端装置905可以包括或可以执行各种操作系统,包括个人计算机操作系统,例如Windows、iOS或Linux、或移动操作系统,例如iOS、Android、或WindowsMobile等。客户端装置可以包括或可以执行各种可能的应用,例如实现与其它装置之间的通信的客户端软件应用,例如发送一个或多个消息,如经由电子邮件、短消息服务(SMS)、或多媒体消息服务(MMS),包括经由网络,如社会网络,包括例如或以仅提供一些可能的示例。客户端装置也可以包括或执行应用以发送内容,例如文本内容、多媒体内容等。客户端装置也可以包括或执行应用,以执行各种可能的任务,例如浏览、搜索、播放各种形式的内容,包括在本地存储或流播放的视频或游戏(例如幻想体育联盟)。提供前述以示出所要求保护的主题旨在包括广泛的可能的特征或能力。
如图9的示例中所示,客户端装置905可以包括一个或多个处理单元(在此也称为CPU)922,所述处理单元与至少一个计算机总线925相接口。存储器930可以是永久性存储器,并与计算机总线925相接口。存储器930包括RAM932和ROM934。ROM934包括BIOS940。存储器930与计算机总线925相接口,以在执行包括程序代码的软件程序和/或包括在此描述的功能的计算机可执行过程步骤的期间将存储在存储器930中的信息提供给CPU922,所述软件程序例如操作系统941、诸如装置驱动器(未示出)之类的应用程序942、以及软件通信器模块943和浏览器模块945,所述计算机可执行过程步骤例如在此描述的一个或多个过程流程。CPU922首先从诸如存储器932、数据存储介质/媒体944、可移除介质驱动器、和/或其它存储装置的存储器加载计算机可执行过程步骤。然后CPU922可以执行存储的过程步骤以执行加载的计算机可执行过程步骤。CPU922可以在执行计算机可执行过程步骤的期间访问所存储的数据,例如由存储装置存储的数据。
永久性存储介质/媒体944是可用于存储诸如操作系统和一个或多个应用程序之类的软件和数据的一个或多个计算机可读存储介质。永久性存储介质/媒体944也可以用于存储装置驱动器,例如一个或多个数字摄像机驱动器、监测器驱动器、打印机驱动器、扫描仪驱动器或其它装置驱动器、网页、内容文件夹、播放列表和其它文件。永久性存储介质/媒体906还可以包括用于实现本公开的一个或多个实施例的程序模块和数据文件。
为了本公开的目的,计算机可读介质存储计算机数据,该数据可以包括可被计算机执行的以机器可读形式的计算机程序代码。作为示例而非限定,计算机可读介质可以包括用于数据的有形存储或固定存储的计算机可读存储媒体或用于代码保持信号的永久性解释的通信介质。在此使用的计算机可读存储介质是指物理或有形存储(与信号相对),并且并非限定地包括以任意方法或技术实现的易失的和非易失的、可移除和不可移除的介质,以用于诸如计算机可读指令、数据结构、程序模块或其它数据之类的信息的有形存储。计算机可读存储介质包括而不限于RAM、ROM、EPROM、EEPROM、闪存或其它的固态存储器技术、CD-ROM、DVD或其它光学存储器、磁带盒、磁带、磁盘存储器或其它的磁存储装置,或任何其它的可用于有形地存储期望的信息或数据或指令且可以被计算机或处理器访问的物理或材料介质。
客户端装置905也可以包括一个或多个电源926、网络接口950、音频接口952、显示器954(例如监视器或屏幕)、键盘956、照明器958、I/O接口960、触觉接口962、GPS964和/或麦克风966。
为了本公开的目的,模块为执行或有利于在此描述的处理、特征和/或功能的软件、硬件或固件(或其组合)系统、处理或功能或其部件(具有或不具有人类交互或增强)。模块可以包括子模块。模块的软件部件可以被存储在计算机可读介质上。模块可以被集成到一个或多个服务器,或者被一个或多个服务器加载和执行。一个或多个模块可以被分组到引擎或应用中。
图10是示出了根据本公开的一个或多个实施例的计算机的示例的内部架构1000的框图,所述计算机例如服务器计算机和/或客户端装置。在此所提及的计算机指的是任意的具有能够执行逻辑或编码指令的处理器的装置,并且可以作为服务器、个人计算机、机顶盒、平板计算机、智能电话、便携式计算机或媒体装置、或增强实现眼镜,以指示一些这种装置。如图10的示例中所示,内部架构1000包括一个或多个处理单元(在此也称为CPU)1012,其与至少一个计算机总线1002相接口。以下装置也与计算机总线1002相接口:永久存储介质/媒体1006、网络接口1014、存储器1004(如随机存取存储器(RAM)、运行时间暂时存储器、只读存储器(ROM)等)、作为用于可以读取和/或写入包括可移动媒体(诸如软盘、CD-ROM、DVD等)的媒体的驱动器的接口的媒体磁盘驱动器接口1008、媒体、作为用于监视器或其它显示装置的接口的显示器接口1010、作为用于键盘的接口的键盘接口1016、作为用于鼠标或其它指示装置的接口的指示装置接口1018、CD/DVD驱动器接口1020、以及各种各样的其它接口1022,例如并行和串行端口接口、通用串行总线(USB)接口、苹果的ThunderBolt和Firewire端口接口等等。
存储器1004与计算机总线1002相接口,以在执行诸如操作系统、应用程序、装置驱动以及软件模块之类的软件程序期间将存储在存储器1004中的信息提供给CPU1012,所述软件模块包括程序代码和/或计算机可执行过程步骤,包括在此描述的功能,例如一个或多个在此描述的过程流程。CPU1012首先从诸如存储器1004、存储介质/媒体1006、可移除媒体驱动器和/或其它存储装置之类的存储器加载计算机可执行过程步骤。然后CPU1012可以执行所存储的过程步骤,以执行加载的计算机可执行过程步骤。CPU1012可以在执行计算机可执行过程步骤的期间访问所存储的数据,例如由存储装置所存储的数据。
如上文所述,永久性存储介质/媒介1006是可用于存储诸如操作系统和一个或多个应用程序之类的软件和数据的一个或多个计算机可读存储介质。永久性存储介质/媒介1006也可以用于存储诸如一个或多个数字摄像机驱动、监视器驱动、打印机驱动、扫描仪驱动、或其它装置驱动器之类的装置驱动器、网页、内容文件、播放列表和其它文件。永久性存储介质/媒介1006还可以包括用于实现本公开的一个或多个实施例的程序模块和数据文件。
本领域的技术人员将认识到,本公开的方法和系统可以以多种方式来实现,因此并不被前述的示例性实施例和示例所限定。换言之,以硬件和软件或固件的各种组合的单个或多个部件所执行的功能元件以及各个功能可以分布在用户计算装置或服务器或这两者之处的软件应用之中。在这点上,在此描述的不同实施例的任意数量的特征可以被组合成单个或多个实施例,并且具有少于或多于在此描述的所有特征的替代性的实施例是可行的。功能也可能以现在已知的或将要获知的方式整体地或部分地分布在多个部件之中。因此,在实现在此描述的功能、特征、接口和优选方式时无数软件/硬件/固件组合是可行的。此外,本公开的范围涵盖了传统上已知的用于执行所描述的特征和功能和接口的方式、以及本领域的技术人员现在和以后将理解的那些可以对在此描述的硬件或软件或固件部件进行的变化和更改。
尽管一些附图以具体的顺序示出了许多操作,但是不取决于顺序的操作可以被重新排序,并且其它操作可以被组合或中断。虽然具体提及了一些重新排序或其它分组,但是其它方式对于本领域的普通技术人员而言将是明显的,因此没有提供对替代方式的详尽列表。此外,应当认识到可以用硬件、固件、软件或其任意组合来实现所述阶段。
尽管已经参照特定的示例性实施例提供了本公开,但是显然可以对这些实施例进行各种更改和变化,而不背离权利要求中所要求的更广泛的精神。例如,可以对超出虚拟房间中的椅子数量的附加的聆听的参与者做准备。在这种情况下,这些聆听的参与者将听到好像他们在预先确定的位置之一中那样,或者将不具有3D声音的优点。相应地,本说明书和附图旨在被视为示例的意义而不是限定的意义。根据在此描述的特征和益处的所有这种变化、替代方式和等同方式在本公开的范围之内。可以引入这种变化和替代方式,而不背离下面的权利要求及其等同方式所限定的本发明的精神和广泛范围。
Claims (25)
1.一种用于多个会议参与者的多维声音会议方法,包括:
向每个会议参与者分配地图上的独特位置;
确定会议参与者中的发言的参与者距会议参与者中的聆听的参与者的方向;
接收来自发言的参与者的语音声音;
将所接收的语音声音转换为与从发言的参与者到聆听的参与者的方向相对应的转换的声音;以及
为聆听的参与者回放转换的声音。
2.根据权利要求1所述的方法,其中地图为虚拟房间。
3.根据权利要求2所述的方法,其中虚拟房间具有多个预先定义的独特位置。
4.根据权利要求3所述的方法,其中在虚拟房间中确定从每个预先定义的位置到虚拟房间中的每个其它预先定义的位置的方向。
5.根据权利要求1所述的方法,其中来自每个发言的参与者的声音被分配虚拟扬声器,所述虚拟扬声器与距每个聆听的参与者的方向相关联。
6.根据权利要求1所述的方法,其中地图包括在每个聆听的参与者周围的声音环。
7.根据权利要求5所述的方法,其中每个虚拟扬声器与声音环周围的位置相关联。
8.根据权利要求2所述的方法,还包括虚拟房间具有限定房间的多个壁。
9.根据权利要求8所述的方法,其中向定向到除了与发言的参与者相关联的虚拟扬声器之外的每个虚拟扬声器的所接收的声音添加回响。
10.根据权利要求1所述的方法,其中来自每个发言的参与者的语音声音被更改为更改的语音。
11.根据权利要求10所述的方法,其中每个更改的语音与该语音在虚拟房间中的位置独特地相关联。
12.一种用于在多个参与者之间的会议期间对三维音频体验进行仿真的方法,所述方法包括:
接收多个语音;
将每个语音与独特的参与者相关联;
向每个独特的参与者呈现虚拟房间的虚拟地图,虚拟地图示出了房间中的等于或大于独特的参与者的数量的多个不同位置;
每个参与者选择地图上的虚拟房间中的不同的位置;
根据每个接收的语音在地图上的位置将每个接收的语音更改为更改的语音;以及
将更改的语音发送给每个其它的参与者。
13.根据权利要求12所述的方法,还包括确定从房间中的每个位置到虚拟房间中的每个其它位置的方向。
14.根据权利要求13所述的方法,还包括将不同的发言的参与者与每个不同的位置相关联,以及其中根据与发言的参与者在房间中的位置相关联的发言的参与者的方向来确定每个更改的语音。
15.一种用于在多个参与者之间的会议期间对三维音频体验进行仿真的方法,所述方法包括:
接收来自参与者的多个语音;
将每个语音与参与者中的独特的一个参与者相关联;
将每个参与者与地图中的独特位置相关联;
根据每个接收的语音在地图上的位置将每个接收的语音更改为更改的语音;以及
将更改的语音发送给每个其它的参与者。
16.根据权利要求15所述的方法,其中地图是虚拟房间的虚拟地图,以及其中虚拟房间示出了房间中的等于或大于独特的参与者的数量的多个不同位置。
17.根据权利要求16所述的方法,其中每个参与者选择地图上的虚拟房间中的不同位置。
18.根据权利要求15所述的方法,其中每个参与者自动地与地图上的位置相关联。
19.根据权利要求15所述的方法,其中将每个参与者与地图上的位置相关联包括使用与每个参与者位置有关的地理信息和标题信息。
20.一种用于在会议中对多维音频体验进行仿真的方法,所述方法包括:
产生虚拟房间的地图,虚拟房间在地图上具有多个不同的预先定义的位置;
向多个会议参与者呈现地图;
每个参与者选择不同的位置之一;
接收来自所述多个参与者中的发言的一个参与者的语音;
将语音转换为与每个预先定义的位置相对应的转换的语音,使得转换的语音对应于每个预先定义的位置距被分配给参与者中的发言的参与者的位置之一的方向;
根据每个其它的参与者距参与者中的发言的参与者的方向,将转换的语音发送给每个其它的参与者。
21.根据权利要求20所述的方法,还包括对地图上的每个预先确定的不同的位置分配虚拟扬声器,并将来自参与者中的发言的参与者的转换的语音从被分配给每个其它参与者的每个位置的所分配的虚拟扬声器发送给每个其它的参与者。
22.一种用于产生三维声音会议的方法,所述方法包括:
产生具有多个位置的地图,每个参与者选择位置之一;
确定从每个位置到地图上的每个其它位置的方向;
确定从每个位置到地图上的每个其它位置的距离;
接收来自每个发言的参与者的声音;
将所接收的声音转换为与每个预先定义的位置相对应的转换的声音,使得所述转换的声音对应于每个预先定义的位置距被分配给参与者中的发言的参与者的位置之一的方向;
对接收的声音进行混音;
将混音后的声音变换为双耳音频声音;
经由与参与者的选择的位置相关联的虚拟扬声器将双耳音频声音定向到每个参与者。
23.根据权利要求22所述的方法,其中产生地图包括定义虚拟房间,所述多个位置位于所述虚拟房间上。
24.一种非瞬时非暂时有形的机器可读介质,所述介质存储指令,所述指令在被计算装置运行时使得所述计算装置执行一种方法,所述方法包括:
产生虚拟房间的地图,虚拟房间在地图上有多个不同的预先确定的位置;
向多个会议参与者呈现所述地图;
确定从每个位置到地图上的每个其它位置的方向;
确定从每个位置到地图上的每个其它位置的距离;
接收来自参与者中的发言的参与者的声音;
将声音转换为与每个预先确定的位置相对应的转换的声音,使得转换的声音对应于每个预先确定的位置距被分配给参与者中的发言的参与者的位置之一的方向;
对接收的声音进行混音;
将混音后的声音变换为双耳音频声音;
将双耳音频声音定向到每个参与者。
25.一种计算机系统,包括:
存储指令的存储器;以及
处理器,与存储器耦合,用于运行指令,该指令被配置用于指示处理器:
产生虚拟房间的地图,虚拟房间在地图上有多个不同的预先确定的位置;
向多个会议参与者呈现地图;
确定从每个位置到地图上的每个其它位置的方向;
确定从每个位置到地图上的每个其它位置的距离;
接收来自每个参与者的声音;
根据每个参与者距每个其它参与者的距离对接收的声音进行混音;
将混音后的声音变换为双耳音频声音;以及
经由与发言的参与者的位置相关联的虚拟扬声器将双耳音频声音定向到每个参与者。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361872068P | 2013-08-30 | 2013-08-30 | |
US61/872,068 | 2013-08-30 | ||
PCT/US2014/051221 WO2015031074A2 (en) | 2013-08-30 | 2014-08-15 | Multidimensional virtual learning system and method |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105493181A true CN105493181A (zh) | 2016-04-13 |
CN105493181B CN105493181B (zh) | 2017-09-05 |
Family
ID=52583301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480047214.2A Active CN105493181B (zh) | 2013-08-30 | 2014-08-15 | 多维虚拟学习系统和方法 |
Country Status (6)
Country | Link |
---|---|
US (6) | US9185508B2 (zh) |
EP (1) | EP3039677B1 (zh) |
CN (1) | CN105493181B (zh) |
AU (1) | AU2014311618B2 (zh) |
CA (3) | CA3016999C (zh) |
WO (1) | WO2015031074A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107465518A (zh) * | 2017-08-16 | 2017-12-12 | 北京大生在线科技有限公司 | 一种基于网络的多人同时语音聊天方法及系统 |
CN115550600A (zh) * | 2022-09-27 | 2022-12-30 | 阿里巴巴(中国)有限公司 | 识别音频数据声音来源的方法、存储介质和电子设备 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150189457A1 (en) * | 2013-12-30 | 2015-07-02 | Aliphcom | Interactive positioning of perceived audio sources in a transformed reproduced sound field including modified reproductions of multiple sound fields |
US10079941B2 (en) * | 2014-07-07 | 2018-09-18 | Dolby Laboratories Licensing Corporation | Audio capture and render device having a visual display and user interface for use for audio conferencing |
US10293259B2 (en) | 2015-12-09 | 2019-05-21 | Microsoft Technology Licensing, Llc | Control of audio effects using volumetric data |
US10045144B2 (en) | 2015-12-09 | 2018-08-07 | Microsoft Technology Licensing, Llc | Redirecting audio output |
CN105741833B (zh) * | 2016-03-14 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 语音通信数据处理方法和装置 |
CN106851035A (zh) * | 2017-01-19 | 2017-06-13 | 努比亚技术有限公司 | 声音处理装置及方法 |
US10534082B2 (en) | 2018-03-29 | 2020-01-14 | International Business Machines Corporation | Accessibility of virtual environments via echolocation |
EP3618466B1 (en) * | 2018-08-29 | 2024-02-21 | Dolby Laboratories Licensing Corporation | Scalable binaural audio stream generation |
EP3870991A4 (en) | 2018-10-24 | 2022-08-17 | Otto Engineering Inc. | DIRECTIONAL AUDIO COMMUNICATION SYSTEM |
CN110310683B (zh) * | 2019-07-01 | 2021-07-06 | 科大讯飞股份有限公司 | 录音处理方法及装置 |
US11750745B2 (en) | 2020-11-18 | 2023-09-05 | Kelly Properties, Llc | Processing and distribution of audio signals in a multi-party conferencing environment |
US20230262169A1 (en) * | 2022-02-15 | 2023-08-17 | Immersitech, Inc. | Core Sound Manager |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060212147A1 (en) * | 2002-01-09 | 2006-09-21 | Mcgrath David S | Interactive spatalized audiovisual system |
US20080144794A1 (en) * | 2006-12-14 | 2008-06-19 | Gardner William G | Spatial Audio Teleconferencing |
US20090112589A1 (en) * | 2007-10-30 | 2009-04-30 | Per Olof Hiselius | Electronic apparatus and system with multi-party communication enhancer and method |
EP2544181A2 (en) * | 2011-07-07 | 2013-01-09 | Dolby Laboratories Licensing Corporation | Method and system for split client-server reverberation processing |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9610394D0 (en) * | 1996-05-17 | 1996-07-24 | Central Research Lab Ltd | Audio reproduction systems |
GB2349055B (en) | 1999-04-16 | 2004-03-24 | Mitel Corp | Virtual meeting rooms with spatial audio |
JP4546151B2 (ja) * | 2004-05-26 | 2010-09-15 | 株式会社日立製作所 | 音声コミュニケーション・システム |
US7889669B2 (en) * | 2005-09-26 | 2011-02-15 | Alcatel Lucent | Equalized network latency for multi-player gaming |
US8249233B2 (en) * | 2006-03-17 | 2012-08-21 | International Business Machines Corporation | Apparatus and system for representation of voices of participants to a conference call |
US20070279483A1 (en) | 2006-05-31 | 2007-12-06 | Beers Ted W | Blended Space For Aligning Video Streams |
US7876904B2 (en) | 2006-07-08 | 2011-01-25 | Nokia Corporation | Dynamic decoding of binaural audio signals |
US8315366B2 (en) * | 2008-07-22 | 2012-11-20 | Shoretel, Inc. | Speaker identification and representation for a phone |
KR101576294B1 (ko) * | 2008-08-14 | 2015-12-11 | 삼성전자주식회사 | 가상 현실 시스템에서 사운드 처리를 수행하기 위한 장치 및 방법 |
US8494841B2 (en) | 2008-10-09 | 2013-07-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Common scene based conference system |
US20120192088A1 (en) | 2011-01-20 | 2012-07-26 | Avaya Inc. | Method and system for physical mapping in a virtual world |
US20130222371A1 (en) | 2011-08-26 | 2013-08-29 | Reincloud Corporation | Enhancing a sensory perception in a field of view of a real-time source within a display screen through augmented reality |
-
2014
- 2014-08-15 CA CA3016999A patent/CA3016999C/en active Active
- 2014-08-15 CN CN201480047214.2A patent/CN105493181B/zh active Active
- 2014-08-15 AU AU2014311618A patent/AU2014311618B2/en active Active
- 2014-08-15 US US14/460,575 patent/US9185508B2/en active Active
- 2014-08-15 CA CA3003524A patent/CA3003524C/en active Active
- 2014-08-15 EP EP14839874.6A patent/EP3039677B1/en active Active
- 2014-08-15 CA CA2919803A patent/CA2919803C/en active Active
- 2014-08-15 WO PCT/US2014/051221 patent/WO2015031074A2/en active Application Filing
-
2015
- 2015-04-29 US US14/699,126 patent/US9161152B2/en active Active
- 2015-10-23 US US14/921,828 patent/US9525958B2/en active Active
- 2015-11-05 US US14/933,420 patent/US9264837B1/en active Active
-
2016
- 2016-01-12 US US14/993,938 patent/US9686627B2/en active Active
- 2016-04-21 US US15/135,329 patent/US9693170B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060212147A1 (en) * | 2002-01-09 | 2006-09-21 | Mcgrath David S | Interactive spatalized audiovisual system |
US20080144794A1 (en) * | 2006-12-14 | 2008-06-19 | Gardner William G | Spatial Audio Teleconferencing |
US20090112589A1 (en) * | 2007-10-30 | 2009-04-30 | Per Olof Hiselius | Electronic apparatus and system with multi-party communication enhancer and method |
EP2544181A2 (en) * | 2011-07-07 | 2013-01-09 | Dolby Laboratories Licensing Corporation | Method and system for split client-server reverberation processing |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107465518A (zh) * | 2017-08-16 | 2017-12-12 | 北京大生在线科技有限公司 | 一种基于网络的多人同时语音聊天方法及系统 |
CN115550600A (zh) * | 2022-09-27 | 2022-12-30 | 阿里巴巴(中国)有限公司 | 识别音频数据声音来源的方法、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2015031074A2 (en) | 2015-03-05 |
EP3039677A4 (en) | 2016-08-17 |
AU2014311618A1 (en) | 2016-02-25 |
US9161152B2 (en) | 2015-10-13 |
US9525958B2 (en) | 2016-12-20 |
CA2919803C (en) | 2018-11-13 |
CA3003524C (en) | 2019-02-12 |
US20160234622A1 (en) | 2016-08-11 |
US20160057558A1 (en) | 2016-02-25 |
US9185508B2 (en) | 2015-11-10 |
CA2919803A1 (en) | 2015-03-05 |
US9264837B1 (en) | 2016-02-16 |
EP3039677A2 (en) | 2016-07-06 |
WO2015031074A3 (en) | 2015-11-05 |
EP3039677B1 (en) | 2019-09-25 |
US20150264185A1 (en) | 2015-09-17 |
AU2014311618B2 (en) | 2017-04-13 |
US20160127848A1 (en) | 2016-05-05 |
CN105493181B (zh) | 2017-09-05 |
US20150063572A1 (en) | 2015-03-05 |
CA3003524A1 (en) | 2015-03-05 |
US9686627B2 (en) | 2017-06-20 |
US20160057557A1 (en) | 2016-02-25 |
US9693170B2 (en) | 2017-06-27 |
CA3016999A1 (en) | 2015-03-05 |
CA3016999C (en) | 2019-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105493181A (zh) | 多维虚拟学习系统和方法 | |
US9565316B2 (en) | Multidimensional virtual learning audio programming system and method | |
Härmä et al. | Augmented reality audio for mobile and wearable appliances | |
CN1719852B (zh) | 信息源选择系统和方法 | |
CN107301028B (zh) | 一种基于多人远程通话的音频数据处理方法及装置 | |
JP7472091B2 (ja) | オンライン通話管理装置及びオンライン通話管理プログラム | |
JP2023155921A (ja) | 情報処理装置、情報処理端末、情報処理方法、およびプログラム | |
JP2023155920A (ja) | 情報処理装置、情報処理端末、情報処理方法、およびプログラム | |
KR101111734B1 (ko) | 복수 개의 음원을 구분하여 음향을 출력하는 방법 및 장치 | |
Storms | NPSNET-3D sound server: an effective use of the auditory channel | |
Gutiérrez A et al. | Audition | |
KR20170016691A (ko) | 모바일 애플리케이션을 이용한 다자간 음악 방송 시스템 및 그 방법 | |
Costerton | A systematic review of the most appropriate methods of achieving spatially enhanced audio for headphone use | |
JP2022141401A (ja) | 配信サーバ、配信方法、及びプログラム | |
CN114745655A (zh) | 交互式空间音效的构建方法、系统及计算机可读存储介质 | |
Stampfl | 3deSoundBox-a Scalable, Platform-Independent 3D Sound System for Virtual and Augmented Reality Applications. | |
Staff | Audio for Mobile and Handheld Devices | |
Albrecht | Viestintä lisätyssä äänitodellisuudessa | |
Rumsey et al. | A scalable spatial sound rendering system | |
Sousa | The development of a'Virtual Studio'for monitoring Ambisonic based multichannel loudspeaker arrays through headphones |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20201127 Address after: New York, USA Patentee after: Immersion technology company Address before: Florida, USA Patentee before: Gleim Conferencing, LLC |