CN102447697B - 开放环境中的半私人通信的方法及系统 - Google Patents

开放环境中的半私人通信的方法及系统 Download PDF

Info

Publication number
CN102447697B
CN102447697B CN201110378008.8A CN201110378008A CN102447697B CN 102447697 B CN102447697 B CN 102447697B CN 201110378008 A CN201110378008 A CN 201110378008A CN 102447697 B CN102447697 B CN 102447697B
Authority
CN
China
Prior art keywords
user
environment
physical environment
voice
speaking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110378008.8A
Other languages
English (en)
Other versions
CN102447697A (zh
Inventor
J·S·弗莱克斯
A·巴-泽埃夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102447697A publication Critical patent/CN102447697A/zh
Application granted granted Critical
Publication of CN102447697B publication Critical patent/CN102447697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/50Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
    • A63F2300/57Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers details of game services offered to the player
    • A63F2300/572Communication between players during game play of non game information, e.g. e-mail, chat, file transfer, streaming of audio and streaming of video
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/10Aspects of automatic or semi-automatic exchanges related to the purpose or context of the telephonic communication
    • H04M2203/1066Game playing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/65Aspects of automatic or semi-automatic exchanges related to applications where calls are combined with other types of communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2203/00Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
    • H04R2203/12Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays

Abstract

本发明涉及开放环境中的半私人通信。一种使用收取室音话筒在一组本地用户中的一个本地用户和远程用户之间提供半私人对话的系统和方法。该本地和远程用户可在使用由网络耦合的设备的不同物理环境中。对话关系被限定在本地用户和远程用户之间。该本地用户的语音和该环境中的其他语音隔离,并被传送到该远程用户。有向输出技术可用于将该本地用户的说话导向到远程环境中的远程用户。

Description

开放环境中的半私人通信的方法及系统
技术领域
本发明涉及开放环境中的半私人通信。 
背景技术
计算机游戏系统提供允许用户与经由局域网或广域网连接的其他玩家玩游戏的在线体验。在某些情况下,一个用户连接于游戏控制台从而在一个物理位置玩游戏,并且与在另一物理位置的另一用户进行通信。目前,每个用户可佩戴具有耳机和话筒的头戴式送受话器以进行通信。这允许位于不同物理位置的用户作为团队参与来彼此通信,而在相同物理环境中的非队友玩家仅能听到最少的环境串话(并且只能听到对话的一方)。在美国专利6935959中描述了一种这样的在游戏设备中使用多玩家实时语音通信的技术,该专利被转让给本申请的受让人,并且通过引用完全并入本文。 
已开发出包括话筒的运动跟踪系统,该运动跟踪系统可消除对控制器和头戴式送受话器的需要。现有技术允许游戏或应用通过各种机制来标识视野内的用户,这些机制包括能够感测诸如大小、面部特征、衣着颜色等用户特征的三维深度相机。还存在语音识别技术以通过包括话筒阵列在内的各种机制来标识感知的用户语音。 
发明内容
描述了用于在使用收取室音话筒(area microphone)来与其他用户通信时在用户间提供半私人对话的技术。该技术在本地用户组中的一个本地用户希望与远程用户私人地通信的情况下是有利的。本地用户和远程用户可以通过网络相耦合。对话关系被限定在本地用户和远程用户之间,该本地用户的语音与由收取室音话筒检测到并在该收取室音话筒的范围内的其他语音隔离,并且该本地用户的经隔离的说话被传送至该远程用户。有向传送技术可用于将本地用 户的说话输出到远程环境中的远程用户。在不使用诸如话筒和头戴式送受话器等的传统声音隔离技术的情况下,提供了半私人对话体验。 
在一个实施例中,该技术包括一种在本地用户和远程用户之间提供半私人对话的方法。经由收取室音话筒从第一物理空间中的本地用户接收语音说话。该本地用户的说话被定位并与第一用户相关联。基于第一用户和第二用户之间定义的对话关系,将第一用户的经隔离的说话导向到第二物理环境中的第二用户。第一和第二用户可使用通过网络彼此耦合的本地和远程处理设备来用这种方式进行通信。 
附图说明
图1示出位于不同物理环境中的两组用户,这两组用户经由通过网络耦合的处理设备进行通信。 
图2示出了目标识别、分析和跟踪系统的示例实施例,其中用户正在玩游戏。 
图3示出了目标识别、分析和跟踪系统的框图。 
图4是示出依照本技术的方法的流程图。 
图5是目标识别、分析和跟踪系统所使用的骨架模型的图示。 
图6是示出用于将用户语音与用户进行关联的第一方法的流程图。 
图7是示出用于将用户语音与用户进行关联的第二方法的流程图。 
图8是表示用于子带域(sub-band domain)中的声音分离的组件的框图。 
图9是表示两阶段声音分离系统的流图,该两阶段声音分离系统包括空间过滤和正则化前馈独立组件分析。 
图10是依照本技术的第一输出系统的表示。 
图11是依照本技术的第二输出系统的表示。 
图12示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算环境的示例实施例。 
图13示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算环境的另一示例实施例。 
具体实施方式
现在将参考图1-13来描述本技术的各实施例。提出了用于在本地用户组的一个本地用户和远程用户之间提供半私人对话的技术,其中使用收取室音话筒(area microphone)来检测本地用户的对话。本地用户和远程用户可以通过网络相耦合。对话关系被限定在本地用户和远程用户之间。该对话关系可用于在例如在游戏中一起交互的各用户间传递信息。该本地用户的语音与由该收取室音话筒检测到并在该收取室音话筒的范围内的其他语音隔离,然后被传递到该远程用户。有向传送技术可用于将该本地用户的说话输出到远程环境中的远程用户。在不使用诸如话筒和头戴式送受话器等的传统声音隔离技术的情况下,提供了半私人对话体验。 
图1示出了在不同物理环境102和104中的本地和远程用户。图1示出了两个物理环境102、104,其中操作各自的计算设备114和124的用户使用捕捉设备20与计算设备交互。在一个示例中,所有用户都可以是联网游戏中的参与者,并且具有在不同物理环境中的队友。在图1中所示的示例中,用户A和用户C是队友,而用户B和用户D是队友。作为队友,用户A/C和B/D可能需要交流有关该游戏的信息,而将其他团队排除在外。然而,因为用户A和B在同一物理环境102中并且用户C和D在同一物理环境104中,所以在用户A和B以及用户C和D之间将发生室内串话(in room crosstalk)。 
本技术允许将对来自一个物理环境中的用户的说话的检测进行隔离,并将其传送到不同物理环境中的特定用户,由此提供半私人对话。由于同一物理环境中的各用户间的室内串话,可能出现一定的隐私损失。 
在物理环境102中,用户A和B参与计算设备114上的游戏应用118。游戏应用118包括通信控制器116或与通信控制器116进行通信,通信控制器116将来自每个相应用户A和B的通信导向到他们在不同物理环境104中的对应的队友C和D。检测系统115将来自每个用户的语音说话与做出该说话的用户相关联。同样地,用户C和D与游戏应用128交互,游戏应用128与通信控制器126和检测系统125进行通信。每个处理设备耦合于网络50,这允许各应用彼此通信并与第二物理环境104中的远程游戏应用128、对应的通信控制器126和处理设备124进行通信。在一个实施例中,游戏服务150为游戏应用提供连 接、计分和其他服务。一种这样的游戏服务是可从微软公司获得的XBOX Live服务。该游戏服务允许用户进入诸如游戏“房间”或锦标赛等虚拟区域,并提供连接服务以在相应的游戏应用和游戏控制器之间路由通信。在替代实施例中,游戏应用118和128可直接通信。 
图2是用户A和B以及处理设备114和在远程位置104处的远程用户C和D的立体表示。在图1和图2所示的示例中,在下面参考图3示出并描述的捕捉设备20捕捉一个物理环境102中的用户A和B以及另一物理环境104中的用户C和D的移动,将用户A和B所提供的信息传送给处理设备114、检测系统115、游戏应用118和通信控制器116。该游戏应用可使用用户的运动来控制游戏内的活动和/或可经由网络在虚拟游戏环境中传送用户的图像(或用户的表示)。 
在进一步的替代实施例中,应用118和128是除游戏应用以外的应用。一个示例包括演示应用或虚拟会议应用,允许用户将通信导向到远程用户而排除其他室内用户。 
在图1中所示的示例中,源自用户A的说话110将被耦合于处理设备114的捕捉设备20a检测到。检测系统115将确定该说话源自哪个用户并将该用户的语音与该个体用户相关联。该通信控制器,与该应用一起,隔离该用户的话音并将该说话转发至特定的远程用户。扬声器或扬声器阵列21a、21b向用户输出声音。来自用户A的说话110将被路由到网络50,并被路由到通信控制器126以经由扬声器或阵列21b被路由到用户C。类似地,来自用户B的说话112将被设备20a检测到,被通信控制器116导向到网络50并经由扬声器21b导向用户D。从用户C回来的通信(说话121)和从用户D回来的通信(说话129)通过捕捉设备20b、通信控制器126被传送通过网络50回到通信控制器116以被扬声器21a分别导向到用户A和B。 
尽管将参考跨网络的通信讨论该技术,然而将意识到,本技术的原理可用于对特定物理环境中的本地连接用户之间的通信进行导向。 
将进一步意识到,尽管图1和图2的实施例描绘了在两个物理环境中用户都与捕捉设备交互,然而该技术的替代实施例包括在一个物理环境中的一个或多个用户利用头戴式送受话器耳机和话筒(诸如微软部件号P6F-0001 Xbox 360 无线头戴式送受话器或微软部件号B$D-0001Xbox 360头戴式送受话器)。例如,一个物理环境102中的用户可与图1和2中所示的捕捉设备交互,而其他物理环境中的用户 
图3示出了用于实现本技术的系统的一个实施例。在一个实施例中,系统包括目标识别、分析和跟踪系统10,该系统10可用于识别、分析和/或跟踪诸如用户A到B等一个或多个人类目标。目标识别、分析和跟踪系统10的各实施例包括用于执行游戏或其他应用的计算环境12,以及用于从游戏或其他应用提供音频和视觉表示的视听设备16。系统10还包括捕捉设备20,捕捉设备20包括一个或多个深度感知相机以及包括两个或更多个话筒的话筒阵列。捕捉设备20与计算环境12通信,以使得计算环境12可以部分地基于从捕捉设备20接收到的信息来控制至视听设备16的输出。下面将更详细地描述这些组件中的每一个。 
如图2所示,在一示例实施例中,在计算环境12上执行的应用可以是多玩家游戏。基于接收自捕捉设备20的信息,计算环境12可使用视听设备16提供每个用户A-D的视觉表示作为玩家化身或呈现不同物理环境中的其他用户的图像。用户可以移进和移出视野。 
尽管对于本技术而言并不是关键点,用户A-D可以执行被在计算环境12上运行的软件引擎所识别的姿势,以使得一识别出用户的姿势,该用户的化身就执行某个动作。尽管在图1-3的示例中示出了4个用户,但应理解在各实施例中本技术可在多于或少于4个用户的情况下操作。此外,本技术并不限于在游戏上下文中将语音与说话者相关联,而且也可用在希望基于人的语音与身体的关联性来标识此人的各种其他实例中。 
图3示出了可以在目标识别、分析和跟踪系统10中使用的捕捉设备20(20a或20b)的示例实施例。在一示例实施例中,捕捉设备20可包括图像相机组件22。组件22被配置成经由包括例如飞行时间、结构化光、立体图像等任何合适的技术来捕捉视野中的三维视频图象。根据一个实施例,图像相机组件22可将所计算的深度信息组织为“Z层”,即可与从深度相机沿其视线延伸的Z轴垂直的层。 
有关可形成捕捉设备20的一部分的相机的更多细节被阐述于在2009年5 月29日提交的名称为“Gesture Tool(姿势工具)”并通过引用而完全结合于此的美国专利申请12/474,655;以及在2009年2月23日提交的名称为“StandardGestures(标准姿势)”并通过引用而完全结合于此的美国专利申请12/391,150中;这些申请中的每一个均整体上被引用而完全结合于此。然而,一般而言,如图2所示,图像相机组件22可捕捉具有所捕捉的场景的二维(2-D)像素区域的深度图像,其中该2-D像素区域中的每一像素可表示来自该相机的所捕捉的场景中的物体的长度,该长度可采用例如厘米、毫米等单位。图像相机组件22能够对在图1A和1B中由光线R1和R2表示的视野内的物体进行成像。 
该技术有利地被应用于诸如以下专利申请中公开的目标识别、分析和跟踪系统:通过引用而被完全结合于此的2009年5月29日提交的题为“Environmentand/or Target Segmentation(环境和/或目标分割)”的美国专利申请12/475094号;通过引用而被完全结合于此的2009年10月21日提交的题为“Pose TrackingPipeline(姿态跟踪流水线)”的美国专利申请12/603437号;通过引用而被完全结合于此的2009年5月29日提交的题为“Device for Identifying and TrackingMultiple Humans Over Time(用于随时间标识和跟踪多个人类的设备)”的美国专利申请12/475308号;通过引用而被完全结合于此的2009年12月18日提交的“Motion Detection Using Depth Images(使用深度图像的运动检测)”;通过引用而被完全结合于此的2009年10月7日提交的题为“Human TrackingSystem(人类跟踪系统)”的美国专利申请第12/575388号;通过引用而被完全结合于此的2009年4月13日提交的题为“Gesture Recognizer SystemArchitecture(姿势识别器系统架构)”的美国专利申请第12/422661号;以及通过引用而被完全结合于此的2009年7月29日提交的题为“Auto Generating aVisual Representation(自动生成视觉表示)”的美国专利申请第12/511850号。 
如图3所示,根据一示例实施例,图像相机组件22可包括可用于捕捉场景的深度图像的IR光组件24、三维(3-D)相机26和RGB相机28。例如,在飞行时间分析中,捕捉设备20的IR光组件24可以将红外光发射到场景上,然后,可以使用传感器(未示出),用例如3-D相机26和/或RGB相机28,来检测从场景中的一个或多个目标和物体的表面反向散射的光。 
根据另一实施例,捕捉设备20可包括可以从不同的角度观察场景的两个 或更多个在物理上分开的相机,以获取可以被解析以生成深度信息的视觉立体数据。在任一实施例中,图像相机组件22能够确定视野内的人相对于彼此的方位,并能够计算视野中的每个人相对于捕捉设备20的角度。 
捕捉设备20可经由通信链路36向计算环境12提供由例如3-D相机26和/或RGB相机28捕捉的深度信息和图像,以及可由捕捉设备20生成的骨架模型。存在用于确定捕捉设备20所检测到的目标或物体是否与人类目标相对应的各种已知技术。例如,捕捉设备20可捕捉可包括人类目标的捕捉区域的深度信息。该深度图像然后可被分析来确定该深度图像是否包括人类目标和/或非人类目标。该深度图像的各部分可被泛色填充并与一图案进行比较来确定该目标是否是人类目标。如果该深度图像中的一个或多个目标包括人类目标,则可扫描该人类目标。 
骨架映射技术因而可用于确定该用户的骨架上的各个点,手、腕、肘、膝、鼻、踝、肩的关节,以及骨盆与脊椎相交之处。其他技术包括将图像转换为人的身体模型表示以及将图像转换为人的网格模型表示。然后可将骨架模型提供给计算环境12以使得该计算环境可以跟踪该骨架模型并利用所述跟踪来达到多种目的中的任何目的,包括用于应用控制的姿势识别。图5中示出了用于跟踪的骨架模型的示例。 
捕捉设备20还可包括话筒阵列32,该话筒阵列包括两个或更多个话筒30。话筒阵列捕捉物理环境内的用户说话。这可包括相机的视野之内和视野之外的说话。话筒30接收由用户A-D中的一个或多个提供的音频说话。 
在所示实施例中,有两个话筒30,但应理解在进一步实施例中话筒阵列可具有多于两个话筒。在解析沿纵轴的相对位置并不是关键的实施例中,可以在公共竖直面中(即,在相同高度上)对准各话筒。然而,还应理解本技术可采用沿不同竖直线和水平线布置的两个到四个或者更多的相机。在这些实施例中,话筒阵列将能够沿竖直面和水平面两者采用声学定位技术来定位一个或多个语音在三维空间中的位置。 
阵列中的话筒30可以如图中所示那样被定位为彼此靠近,诸如相隔一英尺。应理解,在进一步实施例中,例如在邻近捕捉设备20的墙角处,话筒可以相距更紧,或者相隔更开。 
阵列中的话筒30可以彼此同步,且每个话筒可包括可以接收声音并将其转换成电信号的换能器或传感器。用于区分话筒所拾取的声音以确定这些声音中是否有一种或多种声音是人类语音的技术是已知的。话筒30可以包括各种已知的滤波器,诸如用于衰减可以由话筒30检测出的低频噪声的高通滤波器。 
在给定容限内,使用声学定位技术,阵列32还能够确定所感知语音相对于彼此的方位,并且能够计算每个语音源相对于话筒阵列的角度。 
在一示例性实施例中,捕获设备20还可以包括可以与图像相机组件22和话筒阵列32可操作性地通信的处理器33。处理器33可包括可执行指令的标准处理器、专用处理器、微处理器等,这些指令可包括用于接收深度图像的指令、用于确定合适的目标是否可被包括在深度图像中的指令、用于将合适的目标转换成该目标的骨架表示或模型的指令、或任何其他合适的指令。处理器33还可执行上述与声学定位有关的操作。 
捕捉设备20还可包括存储器组件34,其可存储可由处理器33执行的指令、3D相机或RGB相机所捕捉的图像或图像帧、来自话筒30的音频数据或任何其他合适的信息等。根据一示例实施例,存储器组件34可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘或任何其他合适的存储组件。如图3中所示,在一个实施例中,存储器组件34可以是与图像捕捉组件22、话筒阵列32以及处理器33通信的分开的组件。根据另一实施例,存储器组件34可被整合到处理器33、图像捕捉组件22和/或话筒阵列32中。 
如图3所示,捕捉设备20可以经由通信链路36与计算环境12通信。通信链路36可以是包括例如USB连接、火线连接、以太网电缆连接等的有线连接和/或诸如无线802.11b、802.11g、802.11a或802.11n连接等的无线连接。根据一个实施例,计算环境12可以经由通信链路36向捕捉设备20提供时钟,可以使用该时钟来确定何时捕捉例如场景。来自捕捉设备20的图像和音频数据也可以经由通信链路36被传达给计算环境12。 
计算系统12可包括下面的图12和图13所示的硬件实施例中的一个或多个。捕捉设备20可经由通信链路46向计算环境12提供由例如3-D相机36和/或RGB相机38捕捉的深度信息和图像,包括可由捕捉设备20生成的骨架模型。然后计算环境12可使用骨架模型、深度信息和所捕捉的图像来跟踪视野 内的用户以用于一应用。 
计算系统12可包括姿势库192、结构数据198、姿势识别引擎190、深度图像处理和物体报告模块194以及操作系统196。深度图像处理和物体报告模块194使用深度图像来跟踪诸如用户和其他物体等物体的运动。为了帮助跟踪物体,深度图像处理和物体报告模块194使用姿势库190、结构数据198和姿势识别引擎190。 
结构数据198包括关于可被跟踪的物体的结构信息。例如,可以存储人类的骨架模型以帮助理解用户的移动并识别身体部位。还可以存储关于非生命物体的结构信息以帮助识别这些物体并帮助理解移动。 
姿势库192可包括姿势过滤器的集合,每一姿势过滤器包括和骨架模型(在用户移动时)可执行的姿势有关的信息。姿势识别引擎190可将由相机36、38和设备20捕捉的骨架模型以及与其相关联的移动形式的数据与姿势库192中的姿势过滤器进行比较来标识用户(如骨架模型所表示的)何时执行了一个或多个姿势。那些姿势可与应用的各种控制相关联。因此,计算系统12可使用姿势库190来解释骨架模型的移动并基于该移动来控制操作系统196或应用(未示出)。 
在一个实施例中,深度图像处理和物体报告模块194会将检测到的每个物体的标识以及每帧的物体的位置报告给操作系统196。操作系统196将使用该信息来更新显示画面中的化身或其他图像的位置或移动,或在所提供的用户界面上执行动作。 
关于识别器引擎190的更多信息可在2009年4月13日提交的美国专利申请12/422,661“Gesture Recognizer System Architecture(姿势识别器系统架构)”中找到,该申请通过引用整体并入本文。关于识别姿势的更多信息可在2009年2月23日提交的美国专利申请12/391,150“Standard Gestures(标准姿势)”;以及2009年5月29日提交的美国专利申请12/474,655“Gesture Tool(姿势工具)”中找到,这两个申请通过引用整体并入本文。关于运动检测和跟踪的更多信息可在2009年12月18日提交的美国专利申请12/641,788“MotionDetection Using Depth Images(使用深度图像的运动检测)”,以及在2009年5月29日提交的美国专利申请12/475,308“Device for Identifying and Tracking Multiple Humans over Time(用于随时间标识和跟踪多个人类的设备)”中找到,这两个申请通过引用整体并入本文。 
图3中还示出了语音识别引擎200、游戏应用118和通信控制器114。语音识别引擎确定用户语音模式并隔离用户说话。识别引擎与姿势深度图像处理和物体报告引擎194相结合能够将用户说话映射到所跟踪的骨架模型。当存在多个用户语音时,识别引擎基于用户话音而将用户说话分离。然后其可被通信控制器路由,其方式类似于在例如美国专利号6935959中所公开的。 
图4示出了依照本技术的一种方法,以隔离来自一物理环境中的应用用户的由话筒检测到的说话,并将所隔离的说话导向到另一物理环境中的其他用户。在步骤302中,启动利用用户通信路由的应用。在一个实施例中,该应用可包括其中利用控制台或计算设备来提供用户间的本地的或基于网络的语音通信的游戏应用或任何其他应用。在步骤304,由该应用做出需要两个或更多个用户间的隔离对话的判断。对隔离通信的判断可以通过如下方式做出:评估参与该应用的用户的数量,标识出哪些用户需要在与其他用户隔离的情况下彼此通信,以及使用此信息来基于此处所讨论的技术将通信在各用户间路由。 
使用上面参考图1-3讨论的技术,在步骤306中,捕捉设备的视野内的潜在玩家或用户在306被标识。在308,捕捉设备的话筒阵列的范围内的语音被标识。使用下面参考图8和图9讨论的技术可以标识出语音。 
在步骤310,一旦使用本文所讨论的技术标识出语音,则执行语音到用户的相关。在一个实施例中,这可以包括为用户创建骨架模型并跟踪该模型以操纵话筒阵列基于用户的位置和模型来检测来自用户的说话。或者,可将声纹指定给用户骨架模型(在跟踪到时)。在312,应用程序确定哪些用户处于对话关系中。在一个示例中,对话关系可在游戏中的队友间出现。在步骤312中,该对话关系在不同物理环境中或在该物理环境中的用户间进行。在此上下文中,该对话关系应当是对该关系中的那些人尽可能独占的,而将相同或不同物理环境中的其他用户排除在外。一旦关系被确定且语音被隔离,则在320当说话发生时来自每个用户的说话可被隔离并导向到所选择的其他用户。 
在步骤320,基于在步骤310和312中标识的语音-身体相关和团队/隔离特征,将源自视野内的所检测的玩家的语音说话隔离并导向到所选择的接收 者。步骤320可包括在321跟踪该环境中的用户位置以使得该用户位置和用户语音的位置间的关联可能出现。语音声纹被指定到该系统所跟踪的骨架模型,所跟踪的模型的已知位置用于确定该说话的源。将语音与骨架模型相关联具有额外的好处:允许在用户位置的方向上操纵对用户的话筒阵列检测。或者,不需要使用跟踪,而说话的源(即,说话来自哪个用户)可以在该说话的时刻被确定。 
对于每个说话并且对于每个用户A-D,例如通过子步骤322-328来进行对说话的跟踪及路由。在322,对来自任何特定用户的每个说话,在324隔离用户的语音说话。说话隔离可使用下面描述的处理技术或上面指出的技术进行。将话筒阵列聚焦在与该用户相关联的骨架的已知位置处允许调谐该阵列以检测并隔离来自个体用户的说话。在326,然后通信控制器基于由该应用所标识的关系将来自该用户的说话路由到队友。这包括通过在源物理环境处的通信控制器路由到正确的目的通信控制器。在328,目的通信控制器基于通信关系将该说话导向到用户的队友。如下所述,这包括使用有向输出设备来将来自队友处的说话的声音聚焦到它所导向到的人。 
图5示出表示可作为图4的步骤306的一部分生成的扫描的人类目标的骨架模型或映射840的示例。根据一个实施例,骨架模型510可包括可将人类目标表示为三维模型的一个或多个数据结构。每个身体部位可被表征为定义骨架模型510的关节和骨骼的数学矢量。 
骨架模型510包括关节n1-n18。关节n1-n18中的每一个可使得在这些关节之间定义的一个或多个身体部位能相对于一个或多个其他身体部位移动。表示人类目标的模型可包括多个刚性和/或可变形身体部位,这些身体部位可由诸如“骨骼”等的一个或多个结构件来定义,而关节n1-n18位于相邻骨骼的交叉点处。关节n1-n18可使得与骨骼和关节n1-n18相关联的各个身体部位能够彼此独立地或彼此相对地移动。例如,在关节n7与n11之间定义的骨骼对应于前臂,该前臂可独立于例如在关节n15与n17之间定义的对应于小腿的骨骼而移动。可以理解,某些骨骼可对应于人类目标中的解剖学骨骼,和/或某些骨骼在人类目标中可能不具有对应的解剖学骨骼。 
骨骼和关节可共同构成骨架模型,它们可以是该模型的构成元素。轴向滚 动角可用于定义肢相对于其父肢和/或躯干的旋转定向。例如,如果骨架模型正示出手臂的轴向旋转,则滚动关节可用来指示相关联的腕所指的方向(例如,手掌向上)。通过检查肢相对于其父肢和/或躯干的定向,可确定轴向滚动角。例如,如果正在检查小腿,则可检查小腿相对于相关联的大腿和髋部的定向以便确定轴向滚动角。
图6示出了上面参考图3和步骤310讨论的用于映射声音-身体相关性的方法的第一实施例。在图6,在一个实施例中,在602对于特定帧或视野中的每个身体,在604生成该身体的骨架模型。在606确定该用户的声音源要被定位。对声音源的定位参考下面在图8或图9中阐述的描述或通过多种已知技术中的任一种来进行。如果声音源还未被定位,则该方法返回步骤602。如果声音源已被定位,则在608针对该声音源是否与所跟踪的用户相匹配做出判断。如果没有发生匹配,则在610重新扫描源和身体。如果该声音源被定位且与所跟踪的用户相匹配,则在620链接该源和骨架。一旦该源和该骨架模型被链接,则该系统能够将话筒阵列有方向地聚焦于该用户在该环境中的位置。 
图7示出了其中使用用户设置或相关技术的替代实施例。在步骤702,对于特定帧或视野中的每个身体,在704检索骨架模型并且在730请求与该骨架模型相关联的特定用户的声纹。该应用可生成接口,该接口在732提示用户记录特定信息,然后使用用户对该信息的说话来生成该用户的声纹。在736链接该声纹和该用户骨架。 
各种对用户语音进行定位的技术可与本技术一起使用。下面参考图8和图9讨论一种用于确定所感知的语音的方位的系统和方法,其可用于将语音映射到判断系统。其他各种声学定位技术是已知的。 
在一个实施例中,不需要利用跟踪系统,而可使用其他技术来进行用户语音的定位。一个实施例可采用到达时间差(TDOA)技术,该技术第一步骤是确定不同话筒对之间的TDOA集合。即,对于话筒对集合中的每一对,确定声源信号到达该话筒对中的每个话筒的时间之间的相对时间差。例如,测量声源位置s的两个话筒i和j的TDOA可被确定为: 
TDOAi,j=(|s-mi|-|s-mj|)/c 
其中mi是第i个话筒的位置,mj是第j个话筒的位置,以及c是光速。 
TDOA技术还包括使用所确定的TDOA数据和话筒阵列几何结构来估计声源位置的第二步骤。此第二步骤可以通过各种已知方法来执行,这些已知方法包括例如最大似然方法、三角测量方法、球面交集方法、以及球面内插方法。 
TDOA方法是数种已知的可被用来定位感知语音的源的方法中的一种。其他方法包括基于受馈波束成形器的技术以及基于高分辨率频谱估计的技术。关于用于声学定位的话筒系统的进一步细节可在例如题为“Method and Apparatusfor Passive Acoustic Source Localization for Video Camera Steering Applications(用于视频相机操纵应用的无源声源定位的方法和装置)”的美国专利号6,826,284中,以及在由H.Wang和P.Chu在IEEE国际会议声学、语音和信号处理(ICASSP)会刊(德国慕尼黑,1997年4月,第187-190页)中发表的论文“Voice Source Localization for Automatic Camera Pointing System InVideoconferencing(用于视频会议中的自动相机定位系统的声源定位)”中找到。以上专利和论文通过引用整体结合于此。在技术允许使用单个话筒的声源定位达到给定容限的情况下,话筒阵列32可包括一个或多个话筒。 
图8和图9示出了可用作图3的隔离和识别引擎200的多阶段过程/系统。该过程将空间过滤与正则化进行组合。在话筒阵列32处接收的音频信号被变换为频域信号,诸如经由调制复重叠变换或傅立叶变换或任何其他合适的到频域的变换。该频域信号在空间过滤阶段被处理为分离的经空间过滤的信号,包括通过将这些信号输入到多个波束成形器中(波束成形器可包括空成形器(nullformer))。波束成形器的输出可被馈送入非线性空间过滤器以输出经空间过滤的信号。 
在正则化阶段,分离的经空间过滤的信号被输入到独立组件分析机制,该独立组件分析机制被配置成具有与先前的输入帧相对应的多抽头过滤器(multi-tap filter)。独立组件分析机制的分离的输出可被馈送入次级非线性空间过滤器以输出分离的经空间过滤并经正则化的信号。所述分离的经空间过滤并经正则化的信号中的每个信号然后被逆变换为分离的音频信号。 
图8示出了具有基于瞬时到达方向(IDOA)的后处理的规则化的前馈独立组件分析(ICA)的框图。在图8中,两个独立话音源102和103(诸如用户A和B)在子带域被分离。为此目的,使用多个传感器(例如,话筒)32组成 的阵列捕捉的时域信号被转换到子带域,在此示例中是通过使用以高效的方式产生改进的频带间分离的调制复重叠变换(MCLT,框106)进行的。注意,可以使用任何其他合适变换,例如FFT。 
源分离可使用去混合过滤器(demixing filter)(框108)在每个个别频率窗口(frequency bin)中执行,其中k=1,2,…,K是频率窗口的数量。可使用逆MCLT(IMCLT)将所得到的信号转换回时域,如由框120和121表示的。 
每个频率窗口的源分离可被公式化为: 
S=WY    (1) 
其中S是分离的话音向量,W是去混合矩阵,而Y是在有回声且有噪声的环境中测量的话音向量。 
对于波束成形,波束成形器可以是非时变的(其中权重是离线计算的),或者是自适应的(其中权重是在状态改变时计算的)。一种这样的自适应波束成形器是最小方差无失真响应(MVDR)波束成形器,在频域中其可被描述为: 
W H = D H R n - 1 D H R n - 1 D - - - ( 2 )
其中D是操纵向量(steering vector),Rn是噪声协方差矩阵,而W是权重矩阵。通常,用R代替仅噪声协方差Rn,R是输入(信号加噪声)的协方差矩阵。这通常更方便,因为它避免了使用声音活动检测器;这样的波束成形器被称为最小功率无失真响应(MPDR)。为了防止到达方向失配带来的不稳定性,正则化项被添加到样本协方差矩阵。在一种实现中,还用至干扰的方向添加附加的空约束。具有额外空成形约束的波束成形器可被公式化为: 
WH=[1 0]([Dt|Di]H[R+λI]-1[Dt|Di])-1[Dt|Di]H[R+λI]-1
(3) 
其中Dt和Di分别是朝向目标和干扰方向的操纵向量,而λ是用于对角装填的正则化项。通过在目标上的波束和在干扰方向上的空,前馈ICA过滤器的第一抽头可被初始化以用于适当的信道分配。 
在美国专利号7,415,117和美国专利申请公开号20080288219和 20080232607中描述了波束成形/空间处理的更多细节,它们通过被引用而结合于此。 
图9示出了常规子带域ICA和波束成形的组合。图9示出了,对于一个子带,两阶段机制的示例框图。第一阶段包括空间过滤,该空间过滤将各声音源按照它们的位置进行分离。 
来自话筒阵列204的信号被适当的变换206变换(MCLT作为示例示出)。在一种实现中,线性自适应波束成形器(MVDR或MPDR)与强制的空成形器组合起来用于信号表示,如由框208和209表示的。这之后是非线性空间过滤(框210和211),非线性空间过滤产生对干扰信号的进一步抑制。在一种实现中,非线性空间过滤器包括基于瞬时到达方向(IDOA)的空间过滤器,诸如在前面提到的美国专利申请公开号20080288219中描述的。不管在波束成形之后是否使用非线性空间过滤,空间过滤阶段的输出包括在第一分离级的分离的信号。 
上面的空间过滤的输出被示例性的两阶段处理方案的第二阶段用于正则化。第二阶段包括前馈ICA 214,前馈ICA 214是已知ICA算法的改型,该改型基于使用多抽头过滤器。更具体而言,混响过程的持续时间通常比当前帧更长,并因此使用包含先前帧上的历史信息的多抽头过滤器允许ICA考虑混响过程的持续时间。例如,与十个先前30ms帧相对应的十个多抽头过滤器可与300ms混响持续时间一起使用,从而等式(1)对应于图3中大致表示的矩阵,其中n表示当前帧。这只是一个示例,并且已实现了具有相应地更多抽头的更短的帧。 
可以看出,通过使用当前的和先前的多信道帧(多个抽头),最大化了分离的话音的相互独立性。对于额外的分离,次级空间过滤器215和216(另一非线性空间抑制器)被应用在ICA输出上,其后是逆MCLT 220和221以提供分离的话音信号。一般而言,这除去了任何残留的干扰。不管在正则化之后是否使用次级非线性空间过滤,第二阶段的输出包括在第二分离级的分离的信号,这通常是对现有技术的重大改进,例如,如按照信号干扰比测量的。 
对于之后有空间过滤器的波束成形,为了确定期望话音信号和干扰话音信号的到达方向(DOA),可以使用基于瞬时DOA(IDOA)的声音源定位器222。 IDOA空间是M-1维的,各轴是非重复对之间的相位差,其中M是话筒的数量。此空间允许对于每个子带,将概率密度函数pk(θ)作为方向θ的函数进行估计。来自所有子带的结果被总计并群集。 
注意,在这个阶段,该跟踪系统可提供额外提示(cue)来提高定位和跟踪精度。声音源定位器提供到期望信号的方向θ1和到干扰信号的方向θ2。给定对于目标和干扰话音信号的DOA的合适估计,如等式(3)中所述,应用被约束的波束成形器加上相应的空成形器。 
转向更多细节,所得到的空间过滤器对每个子带应用时变实增益,从而担当时空过滤器以抑制来自非查看方向的声音。抑制增益被计算为: 
G k ( n ) = ∫ θ 1 - Δθ θ 1 + Δθ p k ( θ ) dθ / ∫ - π + π p k ( θ ) dθ - - - ( 4 )
其中Δθ是围绕从其捕捉声音的期望方向θ1的范围。 
对于在基于IDOA的后处理之前的正则化的前馈ICA 214,如上所述,通过在每个子带中在去混合过滤器结构中允许多个抽头来利用子带域情况中的时域源分离方法。正则化的前馈ICA(RFFICA)的更新规则是: 
Wi=Wi+μ((1-α)·ΔICA,i-α·ΔFirst stage,i)    (5) 
其中i=0,1,…,N-1,N是抽头数。ΔICA,i和ΔFirst stage,i表示ICA更新的部分以及第一级输出上的正则化的部分。 
ΔICA,i=Wi-<g(S(·-(N-1)))Ytemp H(·-i)>t    (6) 
S ( &CenterDot; ) = &Sigma; n = 0 N - 1 W n ( &CenterDot; ) Y ( &CenterDot; - n ) - - - ( 7 )
Y temp ( &CenterDot; ) = &Sigma; n = 0 N - 1 W N - 1 - n H ( &CenterDot; ) S ( &CenterDot; - n ) - - - ( 8 )
ΔFirst stage,i=<(S(·)|Ref-SFirst stage(·))(Y(·-i)|Ref)H>t    (9) 
其中<·>t表示时间平均,(·-i)表示i样本延迟,SFirst stage是用于正则化的第一级输出向量,而|Ref表示参考信道。只向分配了参考的信道应用惩罚项;混合矩阵的其他项被设为0以使该惩罚项在那些信道更新上消失。 
为了估计分离权重,对每个频率波束迭代执行等式(5)。可在数十到数千次的量级上进行该迭代,这取决于可用资源。在实践中,用明显少于一千次迭代获得了合理结果。 
为了后续过滤器的初始化,混响过程被建模为指数衰减: 
Wi=exp(-βi)·I    (10) 
其中I是单位矩阵,选择β以对平均混响时间建模,而i是抽头索引。注意,对于一种实现,参考信道的RFFICA的第一抽头被初始化为操纵向量栈的伪求逆,从而可将1赋值给目标方向而将空赋值给干扰方向。 
W0,ini|ref=([e(θt)|e(θi)]H[e(θt)|e(θi)])-1[e(θt)|e(θi)]H    (11) 
因为初始化过滤器是使用ICA更新的,所以在更新过程中可调整与实际 DOA的轻微失配。在一种实现中,α被设为0.5,仅是为了对与第一级输出的较大的偏差进行惩罚。作为非线性函数g(·),使用基于极坐标的正切双曲函数,该函数适用于具有良好收敛特性的超级高斯源: 
其中 表示复数值X的相位。为了处理置换和缩放,使用收敛的第一抽头去混合过滤器的经操纵的响应: 
S l = S l F l &CenterDot; ( | F l | max | F | ) &gamma; - - - ( 13 )
其中l是指定信道号,Fl是对信道输出的操纵的响应,F是到候选DOA的操纵的响应。在缩放过程中为了对非查看方向进行惩罚,使用操纵的响应用规格化来添加非线性衰减。在一种实现中,γ被设为一(1)。空间过滤器还在每个频率窗中的非查看有向源上进行惩罚。 
通过将先前的多信道帧纳入考虑(而不是只使用当前帧来进行瞬时去混合),本文描述的技术因而克服了混响声学环境中的子带域ICA的限制,并且还增加了经分离的话音信号的超级高斯性(super-Gaussiantity)。在子带域中具有若干抽头的前馈去混合过滤器结构被提供了自然梯度更新规则。为了避免置换和任意缩放,并将分离的话音源引导到指定的信道输出中,目标和干扰上的估计的空间信息可与在更新等式中添加的正则化项结合使用,从而最小化分离的输出信号和空间过滤器的输出之间的均方误差。在正则化的前馈去混合过滤器收敛之后,观察到话音信号的改进的分离,其中具有对期望话音信号和干扰话音信号两者的可听的后期混响。通过使用基于瞬时到达方向(IDOA)的空间过滤,可以显著抑制这些混响尾音,从而带来了每个频率窗在原始源方向上的可能性。这种后处理还抑制来自非查看方向的任何残留的干扰话音。 
框220和221的输出是每个用户的相应话音说话。将这些输出提供给通信控制器以供应给如该应用所指示的队友。 
图10示出用于将用户说话导向到定位的环境内的个体用户的技术。图10示出了用于将输出导向到用户的第一实施例。在图10中,捕捉设备20从相机22所检测的R1-R2之间的视野内的用户A和用户B接收输入。话筒阵列32能检测物理环境102内的说话。为了将声音个别地导向到用户A和B之一或两者,可使用超声扬声器1010阵列。阵列1010可包括多个个体超声扬声器1010a-1010f,诸如来自马萨诸塞州沃特敦的Holosonics(R)公司的“Audio Spotlight”(R)牌扬声器。超声扬声器使用超声波束作为虚拟声源,从而能够对声音分布进行聚焦控制。利用这种类型的扬声器的阵列,通信控制器116可将说话导向到具有有向关系的扬声器以在预定接收者的方向上输出声音。可利用一个或多个声音有向扬声器1010来将来自队友的说话直接导向到用户A或用户B。 
可利用相对彼此具有一定角度方位的任何形式的超声扬声器的阵列,从而允许被导向个体扬声器的声音最可能被导向到目标用户。 
替代地,如图11中所示,可如图11中所示使用在通信控制器的控制下具有旋转移动的个体扩音器或超声扬声器。图11中示出的扬声器1110和1112可以是超声扬声器或者可以是具有移动能力以将其输出1014、1015直接导向到特定用户的传统扬声器。通信控制器16将来自相应的其他玩家和队友的输出导向到正确的用户。每个扬声器可被装载到可旋转马达上,从而允许控制器将扬声器定位在与用户在室内的已知位置有关的方向上(通过跟踪或通过定位的语音确定)。尽管各玩家之间的一定的室内串话将是不可避免的,然而玩游戏仅会使用户分心到该信息不会令人分心的程度。 
图12示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算环境的示例实施例。诸如上面参考附图1-3描述的计算环境12的计算环境可以是多媒体控制台1012,诸如游戏控制台。如图12所示,多媒体控制台100具有中央处理单元(CPU)1200以及便于处理器访问各种类型存储器的存储器控制器1202,各种类型存储器包括闪速只读存储器(ROM)1204、随机存取存储器(RAM)1206、硬盘驱动器1208、以及便携式媒体驱动器106。在一种实现中,CPU 1200包括一级高速缓存1210和二级高速缓存1212,用于临时存储数据并且因此减少对硬盘驱动器1208进行的存储器访问周期数,从而提高处理速度和吞吐量。 
CPU 1200、存储器控制器1202、以及各种存储器设备经由一个或多个总线(未示出)互连在一起。在此实现中所使用的总线的细节对理解此处所讨论的关注主题不是特别相关。然而,应该理解,这样的总线可以包括串行和并行总线、存储器总线、外围总线、使用各种总线体系结构中的任何一种的处理器或局部总线中的一个或多个。作为示例,这样的体系结构可以包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及也称为夹层总线的外围部件互连(PCI)总线。 
在一种实现中,CPU 1200、存储器控制器1202、ROM 1204、以及RAM 1206被集成到公用模块1214上。在此实现中,ROM 1204被配置为通过PCI总线和ROM总线(两者都没有示出)连接到存储器控制器1202的闪速ROM。RAM1206被配置为多个双倍数据速率同步动态RAM(DDR SDRAM)模块,它们被存储器控制器1202通过分开的总线(未示出)独立地进行控制。硬盘驱动器1208和便携式媒体驱动器106被示为通过PCI总线和AT附加(ATA)总线1216连接到存储器控制器1202。然而,在其他实现中,也可以备选地应用不同类型的专用数据总线结构。 
图形处理单元1220和视频编码器1222构成了用于进行高速度和高分辨率(例如,高清晰度)的图形处理的视频处理流水线。数据通过数字视频总线(未示出)从图形处理单元1220传输到视频编码器1222。音频处理单元1224和音频编解码器(编码器/解码器)1226构成了对应的音频处理流水线,用于对各种数字音频格式进行多通道音频处理。通过通信链路(未示出)在音频处理单元1224和音频编解码器1226之间传输音频数据。视频和音频处理流水线向A/V(音频/视频)端口1228输出数据,以便传输到电视机或其他显示器。在所示出的实现中,视频和音频处理组件1220-228安装在模块1214上。 
图12示出了包括USB主控制器1230和网络接口1232的模块1214。USB主控制器1230被示为通过总线(例如,PCI总线)与CPU 1200和存储器控制器1202进行通信,并作为外围控制器104(1)-104(4)的主机。网络接口1232提供对网络(例如因特网、家庭网络等)的访问,并且可以是包括以太网卡、调制解调器、无线接入卡、蓝牙模块、电缆调制解调器等各种有线或无线接口组 件中的任一种。 
在图12中描述的实现中,控制台1012包括用于支持四个控制器104(1)-104(2)的控制器支持子部件1240。控制器支持子部件1240包括支持与诸如,例如,媒体和游戏控制器之类的外部控制设备的有线和无线操作所需的任何硬件和软件组件。 
相机26、28、阵列32和捕捉设备20可为控制台100定义额外的输入设备。 
前面板I/O子部件1242支持电源按钮1112、弹出按钮1114,以及任何LED(发光二极管)或暴露在控制台1012的外表面上的其他指示器等多个功能。子部件1240和1242通过一个或多个电缆部件1244与模块1214进行通信。在其他实现中,控制台1012可以包括另外的控制器子部件。所示出的实现还示出了被配置成发送和接收可以传递到模块1214的信号的光学I/O接口1235。 
MU 140(1)和140(2)被示为可以分别连接到MU端口“A”1213(1)和“B”1213(2)。附加MU(例如,MU 140(3)-140(4))被示为可连接到控制器1104(1)和1104(3),即每一个控制器两个MU。控制器1104(2)和1104(4)也可以被配置成接纳MU(未示出)。每一个MU 140都提供附加存储,在其上面可以存储游戏、游戏参数、及其他数据。在一些实现中,其他数据可以包括数字游戏组件、可执行的游戏应用,用于扩展游戏应用的指令集、以及媒体文件中的任何一种。当被插入到控制台1012或控制器中时,MU 1140可以被存储器控制器1202访问。系统供电模块1250向游戏系统100的组件供电。风扇1252冷却控制台102内的电路。 
包括机器指令的应用1260被存储在硬盘驱动器1208上。当控制台1012被接通电源时,应用1260的各个部分被加载到RAM 1206,和/或高速缓存1210以及1212中以在CPU 1200上执行,其中应用1260是一个这样的示例。各种应用可以存储在硬盘驱动器1208上以用于在CPU 1200上执行。 
可通过简单地将系统连接到视听设备16(图2)、电视机、视频投影仪、或其他显示设备来将游戏和媒体系统1200用作独立系统。在此独立模式下,游戏和媒体系统1200允许一个或多个玩家玩游戏或欣赏数字媒体,例如观看电影或欣赏音乐。然而,随着宽带连接的集成通过网络接口1232而成为可能,游戏和媒体系统1200还可以作为较大的网络游戏社区的参与者来操作。 
图13示出了可被用于实现计算设备12的另一实施例的通用计算设备。参考图13,用于实现所公开的技术的示例性系统包括采用计算机810的形式的通用计算设备。计算机810的组件可包括,但不限于,处理单元820、系统存储器830、以及将包括系统存储器的各种系统组件耦合到处理单元820的系统总线821。系统总线821可以是若干类型的总线结构中的任一种,包括使用各种总线体系结构中的任一种的存储器总线或存储器控制器、外围总线、以及局部总线。作为示例而非限制,这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线,以及也称为夹层总线的外围部件互连(PCI)总线。 
计算机810通常包括各种计算机可读介质。计算机可读介质可以是能由计算机810访问的任何可用介质,而且包含易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其他存储器技术,CD-ROM、数字多功能盘(DVD)或其他光盘存储设备,磁带盒、磁带、磁盘存储设备或其他磁存储设备,或者能用于存储所需信息且可以由计算机810访问的任何其他介质。通信介质通常以诸如载波或其他传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据,并包括任意信息传送介质。术语“已调制数据信号”是指具有以在信号中编码信息的方式被设定或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、RF、红外及其他无线介质之类的无线介质。上述中任一组合也应包括在计算机可读介质的范围之内。 
系统存储器830包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)831和随机存取存储器(RAM)832。包含诸如在启动期间帮助在计算机810内的元件之间传输信息的基本例程的基本输入/输出系统888(BIOS)通常储存储在ROM 881中。RAM 882通常包含处理单元820可立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制,图 12示出了操作系统884、应用程序885、其它程序模块886和程序数据887。 
计算机810也可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图5示出了对不可移动、非易失性磁介质进行读写的硬盘驱动器840,对可移动、非易失性磁盘851进行读写的磁盘驱动器852,以及对诸如CD ROM或其它光学介质等可移动、非易失性光盘856进行读写的光盘驱动器855。可在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器841通常由诸如接口840等不可移动存储器接口连接至系统总线821,并且磁盘驱动器851和光盘驱动器855通常由诸如接口850等可移动存储器接口连接至系统总线821。 
上文讨论并在图13中示出的驱动器及其相关联的计算机存储介质为计算机810提供了对计算机可读指令、数据结构、程序模块和其他数据的存储。例如,在图13中,硬盘驱动器841被示为存储操作系统844、应用程序845、其它程序模块846和程序数据847。注意,这些组件可以与操作系统834、应用程序835、其他程序模块836和程序数据837相同或不同。在此操作系统844、应用程序845、其他程序模块846以及程序数据847被给予了不同的编号,以说明至少它们是不同的副本。用户可以通过输入设备,例如键盘862和定点设备861——通常是指鼠标、跟踪球或触摸垫——向计算机20输入命令和信息。其他输入设备(未示出)可包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其他输入设备通常通过耦合至系统总线的用户输入接口860连接至处理单元820,但也可以由其他接口和总线结构,例如并行端口、游戏端口或通用串行总线(USB)来连接。监视器891或其他类型的显示设备也通过诸如视频接口890之类的接口连接至系统总线821。除监视器之外,计算机还可包括诸如扬声器897和打印机896之类的其他外围输出设备,它们可以通过输出外围接口890来连接。 
计算机810可以使用到一个或多个远程计算机(如远程计算机880)的逻辑连接,以在联网环境中操作。远程计算机880可以是个人计算机、服务器、路由器、网络PC、对等设备或其它常见网络节点,且通常包括上文相对于计算机810描述的许多或所有元件,尽管在图13中只示出存储器存储设备881。图 13中所示的逻辑连接包括局域网(LAN)871和广域网(WAN)873,但也可以包括其它网络。这些联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。 
当用于LAN联网环境中时,计算机810通过网络接口或适配器870连接到LAN 871。当在WAN联网环境中使用时,计算机810通常包括调制解调器872或用于通过诸如因特网等WAN 873建立通信的其他手段。调制解调器872,可以是内置的或外置的,可以经由用户输入接口860或其他适当的机制,连接到系统总线821。在联网环境中,相对于计算机810所描绘的程序模块或其部分可被存储在远程存储器存储设备中。作为示例而非限制,图13示出了远程应用程序885驻留在存储器设备881上。应当理解,所示的网络连接是示例性的,并且可使用在计算机之间建立通信链路的其他手段。 
尽管已经结合各附图所示的较佳方面描述了本发明,但要理解,可使用其它相似方面或者可对所述方面进行修改或添加来执行本发明的相同功能而不脱离本发明。因此,本发明不应该仅限于任何单个方面,而是应该在根据所附权利要求书的广度和范围内解释。例如,本文描述的各种过程可用硬件或软件、或两者的组合来实现。因此,所公开的各实施例的方法和装置或其某些方面或部分可采用包含在诸如软盘、CD-ROM、硬盘驱动器或任何其他机器可读存储介质等有形介质中的程序代码(即,指令)的形式。当程序代码被加载到诸如计算机等机器并由其执行时,该机器变为被配置成实施所公开的各实施例的装置。除了此处明确阐述的具体实现之外,考虑此处所公开的说明书,其它方面和实现将对本领域的技术人员是显而易见的。说明书和所示实现旨在仅被认为是示例。 

Claims (10)

1.一种在本地用户和远程用户之间提供半私人对话的方法,包括:
经由收取室音话筒阵列从第一物理环境中的至少两个用户中的至少第一用户接收语音输入,其中所述收取室音话筒阵列被配置成定位来自所述至少两个用户的语音输入;
定位(308)所述第一物理环境中的语音;
将语音与所述第一用户相关联(310);
在所述第一环境中隔离(324)所述第一用户的说话;以及
将所述第一环境中的所述第一用户的经隔离的说话导向(326,328)到第二物理环境中的第二用户。
2.如权利要求1所述的方法,其特征在于,还包括跟踪所述物理环境中的用户位置并将所述收取室音话筒阵列聚焦在所述用户位置上的步骤。
3.如权利要求2所述的方法,其特征在于,还包括通过检测深度相机的视野中的用户位置来跟踪用户位置。
4.如权利要求1所述的方法,其特征在于,所述方法还包括从所述第二物理环境中的所述第二用户接收经隔离的说话并将该说话路由到所述第一物理环境中的所述第一用户。
5.如权利要求4所述的方法,其特征在于,路由包括将来自所述第二用户的经隔离的说话提供到对准所述第一用户的有向输出。
6.如权利要求1所述的方法,其特征在于,所述定位步骤包括将空间过滤与对所述输入的正则化进行组合以提供至少两个输出。
7.一种至少包括运动捕捉系统和音频输入的系统,包括:
包括至少一个收取室音话筒阵列的运动捕捉设备(20),其中所述收取室音话筒阵列被配置成定位来自各个用户的语音输入;
处理设备(12),所述处理设备包括致使所述处理设备执行以下操作的指令:
定位(308)经由所述捕捉设备从第一物理环境中的多个用户中的第一用户接收的语音;
将所述语音与所述第一用户相关联(310);
在所述第一环境中隔离(324)所述第一用户的说话;以及
将所述第一环境中的所述第一用户的经隔离的说话导向(326,328)到第二环境中的第二用户;以及
对来自远程用户的音频输出进行导向的、耦合于所述处理设备的有向音频输出设备。
8.如权利要求7所述的系统,其特征在于,所述指令还包括跟踪第一物理环境中的至少第一本地用户和第二本地用户,每个本地用户与第二物理环境中的远程用户具有对话关系。
9.如权利要求7所述的系统,其特征在于,所述指令还包括从所述第二物理环境中的所述第二用户接收经隔离的说话并将该说话路由到所述第一物理环境中的所述第一用户。
10.如权利要求7所述的系统,其特征在于,所述有向输出包括超声扬声器阵列或至少第一可移动扬声器和第二可移动扬声器。
CN201110378008.8A 2010-11-15 2011-11-14 开放环境中的半私人通信的方法及系统 Active CN102447697B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/946,701 US10726861B2 (en) 2010-11-15 2010-11-15 Semi-private communication in open environments
US12/946,701 2010-11-15

Publications (2)

Publication Number Publication Date
CN102447697A CN102447697A (zh) 2012-05-09
CN102447697B true CN102447697B (zh) 2014-10-29

Family

ID=46009786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110378008.8A Active CN102447697B (zh) 2010-11-15 2011-11-14 开放环境中的半私人通信的方法及系统

Country Status (3)

Country Link
US (1) US10726861B2 (zh)
CN (1) CN102447697B (zh)
WO (1) WO2012067829A1 (zh)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006037014A2 (en) 2004-09-27 2006-04-06 Nielsen Media Research, Inc. Methods and apparatus for using location information to manage spillover in an audience monitoring system
US8855101B2 (en) 2010-03-09 2014-10-07 The Nielsen Company (Us), Llc Methods, systems, and apparatus to synchronize actions of audio source monitors
US8583428B2 (en) * 2010-06-15 2013-11-12 Microsoft Corporation Sound source separation using spatial filtering and regularization phases
JP2012160959A (ja) * 2011-02-01 2012-08-23 Nec Casio Mobile Communications Ltd 電子装置
US9973848B2 (en) * 2011-06-21 2018-05-15 Amazon Technologies, Inc. Signal-enhancing beamforming in an augmented reality environment
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
US9246543B2 (en) * 2011-12-12 2016-01-26 Futurewei Technologies, Inc. Smart audio and video capture systems for data processing systems
US20130188006A1 (en) * 2012-01-24 2013-07-25 Daniel A. McMahon Internet Video Chat Capable Television with Personal Computer Hardware
US10107887B2 (en) 2012-04-13 2018-10-23 Qualcomm Incorporated Systems and methods for displaying a user interface
CA2854001C (en) 2012-05-23 2019-04-16 Microsoft Corporation Dynamic exercise content
US9332373B2 (en) * 2012-05-31 2016-05-03 Dts, Inc. Audio depth dynamic range enhancement
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
KR20130137379A (ko) * 2012-06-07 2013-12-17 삼성전자주식회사 홈 네트워크에서 사용자 정보를 저장하는 장치 및 방법
US9021516B2 (en) 2013-03-01 2015-04-28 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by measuring a crest factor
US9118960B2 (en) 2013-03-08 2015-08-25 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by detecting signal distortion
US10291983B2 (en) * 2013-03-15 2019-05-14 Elwha Llc Portable electronic device directed audio system and method
US10531190B2 (en) 2013-03-15 2020-01-07 Elwha Llc Portable electronic device directed audio system and method
US10181314B2 (en) 2013-03-15 2019-01-15 Elwha Llc Portable electronic device directed audio targeted multiple user system and method
US10575093B2 (en) 2013-03-15 2020-02-25 Elwha Llc Portable electronic device directed audio emitter arrangement system and method
US9197930B2 (en) 2013-03-15 2015-11-24 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover in an audience monitoring system
CN105230044A (zh) * 2013-03-20 2016-01-06 诺基亚技术有限公司 空间音频装置
US9392355B1 (en) * 2013-09-19 2016-07-12 Voyetra Turtle Beach, Inc. Gaming headset with voice scrambling for private in-game conversations
EP3005362B1 (en) * 2013-11-15 2021-09-22 Huawei Technologies Co., Ltd. Apparatus and method for improving a perception of a sound signal
US9866986B2 (en) 2014-01-24 2018-01-09 Sony Corporation Audio speaker system with virtual music performance
JP2015155975A (ja) * 2014-02-20 2015-08-27 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
US9232335B2 (en) 2014-03-06 2016-01-05 Sony Corporation Networked speaker system with follow me
US9432768B1 (en) * 2014-03-28 2016-08-30 Amazon Technologies, Inc. Beam forming for a wearable computer
US20150281839A1 (en) * 2014-03-31 2015-10-01 David Bar-On Background noise cancellation using depth
US9392389B2 (en) 2014-06-27 2016-07-12 Microsoft Technology Licensing, Llc Directional audio notification
US9762742B2 (en) 2014-07-24 2017-09-12 Conexant Systems, Llc Robust acoustic echo cancellation for loosely paired devices based on semi-blind multichannel demixing
JP6532666B2 (ja) * 2014-11-07 2019-06-19 Dynabook株式会社 方法、電子機器、およびプログラム
US9924224B2 (en) 2015-04-03 2018-03-20 The Nielsen Company (Us), Llc Methods and apparatus to determine a state of a media presentation device
US9848222B2 (en) 2015-07-15 2017-12-19 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US9832583B2 (en) * 2015-11-10 2017-11-28 Avaya Inc. Enhancement of audio captured by multiple microphones at unspecified positions
WO2018127901A1 (en) 2017-01-05 2018-07-12 Noveto Systems Ltd. An audio communication system and method
US11388541B2 (en) 2016-01-07 2022-07-12 Noveto Systems Ltd. Audio communication system and method
IL243513B2 (en) * 2016-01-07 2023-11-01 Noveto Systems Ltd A system and method for voice communication
US9826332B2 (en) 2016-02-09 2017-11-21 Sony Corporation Centralized wireless speaker system
US9924291B2 (en) 2016-02-16 2018-03-20 Sony Corporation Distributed wireless speaker system
US9826330B2 (en) * 2016-03-14 2017-11-21 Sony Corporation Gimbal-mounted linear ultrasonic speaker assembly
JP6888620B2 (ja) * 2016-04-28 2021-06-16 ソニーグループ株式会社 制御装置、制御方法、プログラム及び音出力システム
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
US9794724B1 (en) 2016-07-20 2017-10-17 Sony Corporation Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating
US10514769B2 (en) * 2016-10-16 2019-12-24 Dell Products, L.P. Volumetric tracking for orthogonal displays in an electronic collaboration setting
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
JP2019146084A (ja) * 2018-02-22 2019-08-29 株式会社デンソーテン スピーカ装置および音声出力方法
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US10524048B2 (en) 2018-04-13 2019-12-31 Bose Corporation Intelligent beam steering in microphone array
US11816886B1 (en) * 2018-06-28 2023-11-14 Meta Platforms Technologies, Llc Apparatus, system, and method for machine perception
US11068668B2 (en) * 2018-10-25 2021-07-20 Facebook Technologies, Llc Natural language translation in augmented reality(AR)
US10360894B1 (en) 2018-11-28 2019-07-23 International Business Machines Corporation Direction-aware cross talk management
US11443737B2 (en) 2020-01-14 2022-09-13 Sony Corporation Audio video translation into multiple languages for respective listeners
CN111371493B (zh) * 2020-03-08 2021-06-04 珠海复旦创新研究院 基于独立元分析的机器学习多带无载波幅度相位调制系统
CN111724784A (zh) * 2020-06-28 2020-09-29 北京小米松果电子有限公司 设备控制方法及装置
US11670130B2 (en) * 2021-07-27 2023-06-06 Igt Dynamic wagering features based on number of active players

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1321039A (zh) * 2000-03-31 2001-11-07 株式会社Kceo 网络游戏系统及其装置与游戏方法及记录游戏程序的媒体
EP1364690A2 (en) * 2002-05-16 2003-11-26 Microsoft Corporation Use of multiple player real-time voice communications on a gaming device
WO2010107490A1 (en) * 2009-03-18 2010-09-23 Touchtunes Music Corporation Entertainment server and associated social networking services

Family Cites Families (183)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4288078A (en) 1979-11-20 1981-09-08 Lugo Julio I Game apparatus
US4695953A (en) 1983-08-25 1987-09-22 Blair Preston E TV animation interactively controlled by the viewer
US4630910A (en) 1984-02-16 1986-12-23 Robotic Vision Systems, Inc. Method of measuring in three-dimensions at high speed
US4627620A (en) 1984-12-26 1986-12-09 Yang John P Electronic athlete trainer for improving skills in reflex, speed and accuracy
US4645458A (en) 1985-04-15 1987-02-24 Harald Phillip Athletic evaluation and training apparatus
US4702475A (en) 1985-08-16 1987-10-27 Innovating Training Products, Inc. Sports technique and reaction training system
US4843568A (en) 1986-04-11 1989-06-27 Krueger Myron W Real time perception of and response to the actions of an unencumbered participant/user
US4711543A (en) 1986-04-14 1987-12-08 Blair Preston E TV animation interactively controlled by the viewer
US4796997A (en) 1986-05-27 1989-01-10 Synthetic Vision Systems, Inc. Method and system for high-speed, 3-D imaging of an object at a vision station
US5184295A (en) 1986-05-30 1993-02-02 Mann Ralph V System and method for teaching physical skills
US4751642A (en) 1986-08-29 1988-06-14 Silva John M Interactive sports simulation system with physiological sensing and psychological conditioning
US4809065A (en) 1986-12-01 1989-02-28 Kabushiki Kaisha Toshiba Interactive system and related method for displaying data to produce a three-dimensional image of an object
US4817950A (en) 1987-05-08 1989-04-04 Goo Paul E Video game control unit and attitude sensor
US5239464A (en) 1988-08-04 1993-08-24 Blair Preston E Interactive video system providing repeated switching of multiple tracks of actions sequences
US5239463A (en) 1988-08-04 1993-08-24 Blair Preston E Method and apparatus for player interaction with animated characters and objects
US4901362A (en) 1988-08-08 1990-02-13 Raytheon Company Method of recognizing patterns
US4893183A (en) 1988-08-11 1990-01-09 Carnegie-Mellon University Robotic vision system
JPH02199526A (ja) 1988-10-14 1990-08-07 David G Capper 制御インターフェース装置
US4925189A (en) 1989-01-13 1990-05-15 Braeunig Thomas F Body-mounted video game exercise device
US5229756A (en) 1989-02-07 1993-07-20 Yamaha Corporation Image control apparatus
US5469740A (en) 1989-07-14 1995-11-28 Impulse Technology, Inc. Interactive video testing and training system
JPH03103822U (zh) 1990-02-13 1991-10-29
US5101444A (en) 1990-05-18 1992-03-31 Panacea, Inc. Method and apparatus for high speed object location
US5148154A (en) 1990-12-04 1992-09-15 Sony Corporation Of America Multi-dimensional user interface
US5534917A (en) 1991-05-09 1996-07-09 Very Vivid, Inc. Video image based control system
US5417210A (en) 1992-05-27 1995-05-23 International Business Machines Corporation System and method for augmentation of endoscopic surgery
US5295491A (en) 1991-09-26 1994-03-22 Sam Technology, Inc. Non-invasive human neurocognitive performance capability testing method and system
US6054991A (en) 1991-12-02 2000-04-25 Texas Instruments Incorporated Method of modeling player position and movement in a virtual reality system
CA2101633A1 (en) 1991-12-03 1993-06-04 Barry J. French Interactive video testing and training system
US5875108A (en) 1991-12-23 1999-02-23 Hoffberg; Steven M. Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
JPH07325934A (ja) 1992-07-10 1995-12-12 Walt Disney Co:The 仮想世界に向上したグラフィックスを提供する方法および装置
US5999908A (en) 1992-08-06 1999-12-07 Abelow; Daniel H. Customer-based product design module
US5320538A (en) 1992-09-23 1994-06-14 Hughes Training, Inc. Interactive aircraft training system and method
IT1257294B (it) 1992-11-20 1996-01-12 Dispositivo atto a rilevare la configurazione di un'unita' fisiologicadistale,da utilizzarsi in particolare come interfaccia avanzata per macchine e calcolatori.
US5495576A (en) 1993-01-11 1996-02-27 Ritchey; Kurtis J. Panoramic image based virtual reality/telepresence audio-visual system and method
US5690582A (en) 1993-02-02 1997-11-25 Tectrix Fitness Equipment, Inc. Interactive exercise apparatus
JP2799126B2 (ja) 1993-03-26 1998-09-17 株式会社ナムコ ビデオゲーム装置及びゲーム用入力装置
US5405152A (en) 1993-06-08 1995-04-11 The Walt Disney Company Method and apparatus for an interactive video game with physical feedback
US5454043A (en) 1993-07-30 1995-09-26 Mitsubishi Electric Research Laboratories, Inc. Dynamic and static hand gesture recognition through low-level image analysis
US5423554A (en) 1993-09-24 1995-06-13 Metamedia Ventures, Inc. Virtual reality game method and apparatus
US5980256A (en) 1993-10-29 1999-11-09 Carmein; David E. E. Virtual reality system with enhanced sensory apparatus
JP3419050B2 (ja) 1993-11-19 2003-06-23 株式会社日立製作所 入力装置
US5347306A (en) 1993-12-17 1994-09-13 Mitsubishi Electric Research Laboratories, Inc. Animated electronic meeting place
JP2552427B2 (ja) 1993-12-28 1996-11-13 コナミ株式会社 テレビ遊戯システム
US5577981A (en) 1994-01-19 1996-11-26 Jarvik; Robert Virtual reality exercise machine and computer controlled video system
US5580249A (en) 1994-02-14 1996-12-03 Sarcos Group Apparatus for simulating mobility of a human
US5597309A (en) 1994-03-28 1997-01-28 Riess; Thomas Method and apparatus for treatment of gait problems associated with parkinson's disease
US5385519A (en) 1994-04-19 1995-01-31 Hsu; Chi-Hsueh Running machine
US5524637A (en) 1994-06-29 1996-06-11 Erickson; Jon W. Interactive system for measuring physiological exertion
JPH0844490A (ja) 1994-07-28 1996-02-16 Matsushita Electric Ind Co Ltd インターフェイス装置
US5563988A (en) 1994-08-01 1996-10-08 Massachusetts Institute Of Technology Method and system for facilitating wireless, full-body, real-time user interaction with a digitally represented visual environment
US6714665B1 (en) 1994-09-02 2004-03-30 Sarnoff Corporation Fully automated iris recognition system utilizing wide and narrow fields of view
US5516105A (en) 1994-10-06 1996-05-14 Exergame, Inc. Acceleration activated joystick
US5638300A (en) 1994-12-05 1997-06-10 Johnson; Lee E. Golf swing analysis system
JPH08161292A (ja) 1994-12-09 1996-06-21 Matsushita Electric Ind Co Ltd 混雑度検知方法およびそのシステム
US7133846B1 (en) * 1995-02-13 2006-11-07 Intertrust Technologies Corp. Digital certificate support system, methods and techniques for secure electronic commerce transaction and rights management
US5594469A (en) 1995-02-21 1997-01-14 Mitsubishi Electric Information Technology Center America Inc. Hand gesture machine control system
US5682229A (en) 1995-04-14 1997-10-28 Schwartz Electro-Optics, Inc. Laser range camera
US5913727A (en) 1995-06-02 1999-06-22 Ahdoot; Ned Interactive movement and contact simulation game
US6229913B1 (en) 1995-06-07 2001-05-08 The Trustees Of Columbia University In The City Of New York Apparatus and methods for determining the three-dimensional shape of an object using active illumination and relative blurring in two-images due to defocus
US5682196A (en) 1995-06-22 1997-10-28 Actv, Inc. Three-dimensional (3D) video presentation system providing interactive 3D presentation with personalized audio responses for multiple viewers
US5702323A (en) 1995-07-26 1997-12-30 Poulton; Craig K. Electronic exercise enhancer
US6073489A (en) 1995-11-06 2000-06-13 French; Barry J. Testing and training system for assessing the ability of a player to complete a task
US6098458A (en) 1995-11-06 2000-08-08 Impulse Technology, Ltd. Testing and training system for assessing movement and agility skills without a confining field
US6308565B1 (en) 1995-11-06 2001-10-30 Impulse Technology Ltd. System and method for tracking and assessing movement skills in multidimensional space
US6430997B1 (en) 1995-11-06 2002-08-13 Trazer Technologies, Inc. System and method for tracking and assessing movement skills in multidimensional space
WO1999044698A2 (en) 1998-03-03 1999-09-10 Arena, Inc. System and method for tracking and assessing movement skills in multidimensional space
US6176782B1 (en) 1997-12-22 2001-01-23 Philips Electronics North America Corp. Motion-based command generation technology
US5933125A (en) 1995-11-27 1999-08-03 Cae Electronics, Ltd. Method and apparatus for reducing instability in the display of a virtual environment
US5641288A (en) 1996-01-11 1997-06-24 Zaenglein, Jr.; William G. Shooting simulating process and training device using a virtual reality display screen
US6152856A (en) 1996-05-08 2000-11-28 Real Vision Corporation Real time simulation using position sensing
US6173066B1 (en) 1996-05-21 2001-01-09 Cybernet Systems Corporation Pose determination and tracking by matching 3D objects to a 2D sensor
US5989157A (en) 1996-08-06 1999-11-23 Walton; Charles A. Exercising system with electronic inertial game playing
CN1168057C (zh) 1996-08-14 2004-09-22 挪拉赫梅特·挪利斯拉莫维奇·拉都包夫 追踪并显示使用者在空间的位置与取向的方法,向使用者展示虚拟环境的方法以及实现这些方法的系统
JP3064928B2 (ja) 1996-09-20 2000-07-12 日本電気株式会社 被写体抽出方式
DE69626208T2 (de) 1996-12-20 2003-11-13 Hitachi Europ Ltd Verfahren und System zur Erkennung von Handgesten
US6009210A (en) 1997-03-05 1999-12-28 Digital Equipment Corporation Hands-free interface to a virtual reality environment using head tracking
US6100896A (en) 1997-03-24 2000-08-08 Mitsubishi Electric Information Technology Center America, Inc. System for designing graphical multi-participant environments
US5877803A (en) 1997-04-07 1999-03-02 Tritech Mircoelectronics International, Ltd. 3-D image detector
US6215898B1 (en) 1997-04-15 2001-04-10 Interval Research Corporation Data processing system and method
JPH1133230A (ja) * 1997-07-16 1999-02-09 Sega Enterp Ltd 通信ゲームシステム
JP3077745B2 (ja) 1997-07-31 2000-08-14 日本電気株式会社 データ処理方法および装置、情報記憶媒体
US6188777B1 (en) 1997-08-01 2001-02-13 Interval Research Corporation Method and apparatus for personnel detection and tracking
US6289112B1 (en) 1997-08-22 2001-09-11 International Business Machines Corporation System and method for determining block direction in fingerprint images
US6720949B1 (en) 1997-08-22 2004-04-13 Timothy R. Pryor Man machine interfaces and applications
AUPO894497A0 (en) 1997-09-02 1997-09-25 Xenotech Research Pty Ltd Image processing method and apparatus
EP0905644A3 (en) 1997-09-26 2004-02-25 Matsushita Electric Industrial Co., Ltd. Hand gesture recognizing device
US6141463A (en) 1997-10-10 2000-10-31 Electric Planet Interactive Method and system for estimating jointed-figure configurations
US6101289A (en) 1997-10-15 2000-08-08 Electric Planet, Inc. Method and apparatus for unencumbered capture of an object
US6072494A (en) 1997-10-15 2000-06-06 Electric Planet, Inc. Method and apparatus for real-time gesture recognition
AU9808298A (en) * 1997-10-15 1999-05-03 Electric Planet, Inc. A system and method for generating an animatable character
US6130677A (en) 1997-10-15 2000-10-10 Electric Planet, Inc. Interactive computer vision system
WO1999019828A1 (en) 1997-10-15 1999-04-22 Electric Planet, Inc. Method and apparatus for performing a clean background subtraction
US6181343B1 (en) 1997-12-23 2001-01-30 Philips Electronics North America Corp. System and method for permitting three-dimensional navigation through a virtual reality environment using camera-based gesture inputs
US6159100A (en) 1998-04-23 2000-12-12 Smith; Michael D. Virtual reality game
US6077201A (en) 1998-06-12 2000-06-20 Cheng; Chau-Yang Exercise bicycle
US7036094B1 (en) 1998-08-10 2006-04-25 Cybernet Systems Corporation Behavior recognition system
US20010008561A1 (en) 1999-08-10 2001-07-19 Paul George V. Real-time object tracking system
US7121946B2 (en) 1998-08-10 2006-10-17 Cybernet Systems Corporation Real-time head tracking system for computer games and other applications
US6801637B2 (en) 1999-08-10 2004-10-05 Cybernet Systems Corporation Optical body tracker
US6950534B2 (en) 1998-08-10 2005-09-27 Cybernet Systems Corporation Gesture-controlled interfaces for self-service machines and other applications
US6681031B2 (en) 1998-08-10 2004-01-20 Cybernet Systems Corporation Gesture-controlled interfaces for self-service machines and other applications
IL126284A (en) 1998-09-17 2002-12-01 Netmor Ltd System and method for three dimensional positioning and tracking
EP0991011B1 (en) 1998-09-28 2007-07-25 Matsushita Electric Industrial Co., Ltd. Method and device for segmenting hand gestures
AU1930700A (en) 1998-12-04 2000-06-26 Interval Research Corporation Background estimation and segmentation based on range and color
US6147678A (en) 1998-12-09 2000-11-14 Lucent Technologies Inc. Video hand image-three-dimensional computer interface with multiple degrees of freedom
AU1574899A (en) 1998-12-16 2000-07-03 3Dv Systems Ltd. Self gating photosurface
US6570555B1 (en) 1998-12-30 2003-05-27 Fuji Xerox Co., Ltd. Method and apparatus for embodied conversational characters with multimodal input/output in an interface device
US6363160B1 (en) 1999-01-22 2002-03-26 Intel Corporation Interface using pattern recognition and tracking
US7003134B1 (en) 1999-03-08 2006-02-21 Vulcan Patents Llc Three dimensional object pose estimation which employs dense depth information
US6299308B1 (en) 1999-04-02 2001-10-09 Cybernet Systems Corporation Low-cost non-imaging eye tracker system for computer control
US6503195B1 (en) 1999-05-24 2003-01-07 University Of North Carolina At Chapel Hill Methods and systems for real-time structured light depth extraction and endoscope using real-time structured light depth extraction
US6476834B1 (en) 1999-05-28 2002-11-05 International Business Machines Corporation Dynamic creation of selectable items on surfaces
US6873723B1 (en) 1999-06-30 2005-03-29 Intel Corporation Segmenting three-dimensional video images using stereo
US6738066B1 (en) 1999-07-30 2004-05-18 Electric Plant, Inc. System, method and article of manufacture for detecting collisions between video images generated by a camera and an object depicted on a display
US7113918B1 (en) 1999-08-01 2006-09-26 Electric Planet, Inc. Method for video enabled electronic commerce
US7050606B2 (en) 1999-08-10 2006-05-23 Cybernet Systems Corporation Tracking and gesture recognition system particularly suited to vehicular control applications
US6663491B2 (en) 2000-02-18 2003-12-16 Namco Ltd. Game apparatus, storage medium and computer program that adjust tempo of sound
US6633294B1 (en) 2000-03-09 2003-10-14 Seth Rosenthal Method and apparatus for using captured high density motion for animation
EP1152261A1 (en) 2000-04-28 2001-11-07 CSEM Centre Suisse d'Electronique et de Microtechnique SA Device and method for spatially resolved photodetection and demodulation of modulated electromagnetic waves
US6640202B1 (en) 2000-05-25 2003-10-28 International Business Machines Corporation Elastic sensor mesh system for 3-dimensional measurement, mapping and kinematics applications
US6731799B1 (en) 2000-06-01 2004-05-04 University Of Washington Object segmentation with background extraction and moving boundary techniques
US6788809B1 (en) 2000-06-30 2004-09-07 Intel Corporation System and method for gesture recognition in three dimensions using stereo imaging and color vision
US7227526B2 (en) 2000-07-24 2007-06-05 Gesturetek, Inc. Video-based image control system
US7058204B2 (en) 2000-10-03 2006-06-06 Gesturetek, Inc. Multiple camera control system
US7039676B1 (en) 2000-10-31 2006-05-02 International Business Machines Corporation Using video image analysis to automatically transmit gestures over a network in a chat or instant messaging session
KR20040014411A (ko) * 2000-11-14 2004-02-14 네타민 커뮤니케이션 코포레이션 온라인 포럼에의 동시 참여를 위한 시스템 및 방법
US6539931B2 (en) 2001-04-16 2003-04-01 Koninklijke Philips Electronics N.V. Ball throwing assistant
US7259747B2 (en) 2001-06-05 2007-08-21 Reactrix Systems, Inc. Interactive video display system
US8035612B2 (en) 2002-05-28 2011-10-11 Intellectual Ventures Holding 67 Llc Self-contained interactive video display system
JP3420221B2 (ja) 2001-06-29 2003-06-23 株式会社コナミコンピュータエンタテインメント東京 ゲーム装置及びプログラム
US6937742B2 (en) 2001-09-28 2005-08-30 Bellsouth Intellectual Property Corporation Gesture activated home appliance
JP4280901B2 (ja) 2002-02-05 2009-06-17 株式会社セガ 音声チャットシステム
ATE321689T1 (de) 2002-04-19 2006-04-15 Iee Sarl Sicherheitsvorrichtung für ein fahrzeug
US7348963B2 (en) 2002-05-28 2008-03-25 Reactrix Systems, Inc. Interactive video display system
US7710391B2 (en) 2002-05-28 2010-05-04 Matthew Bell Processing an image utilizing a spatially varying pattern
US7170492B2 (en) 2002-05-28 2007-01-30 Reactrix Systems, Inc. Interactive video display system
US7489812B2 (en) 2002-06-07 2009-02-10 Dynamic Digital Depth Research Pty Ltd. Conversion and encoding techniques
US8947347B2 (en) * 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US7760248B2 (en) * 2002-07-27 2010-07-20 Sony Computer Entertainment Inc. Selective sound source listening in conjunction with computer interactive processing
US20040109059A1 (en) * 2002-11-12 2004-06-10 Kevin Kawakita Hybrid joint photographer's experts group (JPEG) /moving picture experts group (MPEG) specialized security video camera
US7576727B2 (en) 2002-12-13 2009-08-18 Matthew Bell Interactive directed light/sound system
JP4235729B2 (ja) 2003-02-03 2009-03-11 国立大学法人静岡大学 距離画像センサ
DE602004006190T8 (de) 2003-03-31 2008-04-10 Honda Motor Co., Ltd. Vorrichtung, Verfahren und Programm zur Gestenerkennung
EP1473964A3 (en) * 2003-05-02 2006-08-09 Samsung Electronics Co., Ltd. Microphone array, method to process signals from this microphone array and speech recognition method and system using the same
US8072470B2 (en) 2003-05-29 2011-12-06 Sony Computer Entertainment Inc. System and method for providing a real-time three-dimensional interactive environment
WO2004107266A1 (en) 2003-05-29 2004-12-09 Honda Motor Co., Ltd. Visual tracking using depth data
JP4546956B2 (ja) 2003-06-12 2010-09-22 本田技研工業株式会社 奥行き検出を用いた対象の向きの推定
US7536032B2 (en) 2003-10-24 2009-05-19 Reactrix Systems, Inc. Method and system for processing captured image information in an interactive video display system
CN100573548C (zh) 2004-04-15 2009-12-23 格斯图尔泰克股份有限公司 跟踪双手运动的方法和设备
US7308112B2 (en) 2004-05-14 2007-12-11 Honda Motor Co., Ltd. Sign based human-machine interaction
US7704135B2 (en) 2004-08-23 2010-04-27 Harrison Jr Shelton E Integrated game system, method, and device
KR20060070280A (ko) 2004-12-20 2006-06-23 한국전자통신연구원 손 제스처 인식을 이용한 사용자 인터페이스 장치 및 그방법
HUE049974T2 (hu) 2005-01-07 2020-11-30 Qualcomm Inc Képeken lévõ objektumok észlelése és követése
WO2006074310A2 (en) 2005-01-07 2006-07-13 Gesturetek, Inc. Creating 3d images of objects by illuminating with infrared patterns
CN101137996A (zh) 2005-01-07 2008-03-05 格斯图尔泰克股份有限公司 基于光流的倾斜传感器
WO2006077532A1 (en) * 2005-01-21 2006-07-27 Koninklijke Philips Electronics N.V. Operation mode adjustment device and method of adjusting an operation mode of an electronic product
EP1851750A4 (en) 2005-02-08 2010-08-25 Oblong Ind Inc SYSTEM AND METHOD FOR CONTROL SYSTEM BASED ON GESTURES
JP4686595B2 (ja) 2005-03-17 2011-05-25 本田技研工業株式会社 クリティカルポイント解析に基づくポーズ推定
EP1886509B1 (en) 2005-05-17 2017-01-18 Qualcomm Incorporated Orientation-sensitive signal output
EP1752748B1 (en) 2005-08-12 2008-10-29 MESA Imaging AG Highly sensitive, fast pixel for use in an image sensor
US20080026838A1 (en) 2005-08-22 2008-01-31 Dunstan James E Multi-player non-role-playing virtual world games: method for two-way interaction between participants and multi-player virtual world games
US8825482B2 (en) * 2005-09-15 2014-09-02 Sony Computer Entertainment Inc. Audio, video, simulation, and user interface paradigms
US7450736B2 (en) 2005-10-28 2008-11-11 Honda Motor Co., Ltd. Monocular tracking of 3D human motion with a coordinated mixture of factor analyzers
KR100733964B1 (ko) * 2005-11-25 2007-06-29 한국전자통신연구원 모션인식과 음성인식을 이용한 게임 장치 및 그 방법
US8571580B2 (en) 2006-06-01 2013-10-29 Loopt Llc. Displaying the location of individuals on an interactive map display on a mobile communication device
US7701439B2 (en) 2006-07-13 2010-04-20 Northrop Grumman Corporation Gesture recognition simulation system and method
JP5395323B2 (ja) 2006-09-29 2014-01-22 ブレインビジョン株式会社 固体撮像素子
US7412077B2 (en) 2006-12-29 2008-08-12 Motorola, Inc. Apparatus and methods for head pose estimation and head gesture detection
US7729530B2 (en) 2007-03-03 2010-06-01 Sergey Antonov Method and apparatus for 3-D data input to a personal computer with a multimedia oriented operating system
US8005237B2 (en) * 2007-05-17 2011-08-23 Microsoft Corp. Sensor array beamformer post-processor
US7852262B2 (en) 2007-08-16 2010-12-14 Cybernet Systems Corporation Wireless mobile indoor/outdoor tracking system
US8210931B2 (en) * 2007-10-12 2012-07-03 Cfph, Llc Game with chance element and tax indicator
US8224305B2 (en) * 2007-10-31 2012-07-17 Centurylink Intellectual Property Llc System and method for extending conference communications access to local participants
US8249867B2 (en) 2007-12-11 2012-08-21 Electronics And Telecommunications Research Institute Microphone array based speech recognition system and target speech extracting method of the system
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
US20090209345A1 (en) 2008-02-14 2009-08-20 Aruze Gaming America, Inc. Multiplayer participation type gaming system limiting dialogue voices outputted from gaming machine
US20090210491A1 (en) * 2008-02-20 2009-08-20 Microsoft Corporation Techniques to automatically identify participants for a multimedia conference event
KR20090098426A (ko) * 2008-03-14 2009-09-17 (주)엘리더스 적응 필터를 이용한 마이크로폰 어레이 시스템에서 음원 방향 자동추출 방법
CN101254344B (zh) 2008-04-18 2010-06-16 李刚 场地方位与显示屏点阵按比例相对应的游戏装置和方法
US8390680B2 (en) * 2009-07-09 2013-03-05 Microsoft Corporation Visual representation expression based on player expression
US8265341B2 (en) * 2010-01-25 2012-09-11 Microsoft Corporation Voice-body identity correlation
US20120259638A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1321039A (zh) * 2000-03-31 2001-11-07 株式会社Kceo 网络游戏系统及其装置与游戏方法及记录游戏程序的媒体
EP1364690A2 (en) * 2002-05-16 2003-11-26 Microsoft Corporation Use of multiple player real-time voice communications on a gaming device
WO2010107490A1 (en) * 2009-03-18 2010-09-23 Touchtunes Music Corporation Entertainment server and associated social networking services

Also Published As

Publication number Publication date
US10726861B2 (en) 2020-07-28
WO2012067829A1 (en) 2012-05-24
US20120120218A1 (en) 2012-05-17
CN102447697A (zh) 2012-05-09

Similar Documents

Publication Publication Date Title
CN102447697B (zh) 开放环境中的半私人通信的方法及系统
CN112567767B (zh) 用于交互式音频环境的空间音频
CN104106267B (zh) 在增强现实环境中的信号增强波束成形
Zotkin et al. Accelerated speech source localization via a hierarchical search of steered response power
US11854566B2 (en) Wearable system speech processing
CN102903362B (zh) 集成的本地和基于云的语音识别
CN114095687A (zh) 视音频会议设备、终端设备、声源定位方法和介质
JP2010010857A (ja) 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法
Suzuki et al. Influence of different impulse response measurement signals on music-based sound source localization
Birnie Extrapolation, Localisation, and Enhancement of Spatial Audio Recordings for the Reproduction of Real-World Scenes
Omologo Front-end processing of a distant-talking speech interface for control of an interactive TV system
Nakadai et al. Ego-Noise Suppression for Robots Based on Semi-Blind Infinite Non-Negative Matrix Factorization
Rothbucher Development and Evaluation of an Immersive Audio Conferencing System

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150422

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150422

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.