CN103404169B - 聚焦麦克风阵列的方法及系统 - Google Patents
聚焦麦克风阵列的方法及系统 Download PDFInfo
- Publication number
- CN103404169B CN103404169B CN201180068553.5A CN201180068553A CN103404169B CN 103404169 B CN103404169 B CN 103404169B CN 201180068553 A CN201180068553 A CN 201180068553A CN 103404169 B CN103404169 B CN 103404169B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- assembly
- location information
- component
- microphone array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000005236 sound signal Effects 0.000 claims abstract description 90
- 230000003287 optical effect Effects 0.000 claims abstract description 33
- 230000000007 visual effect Effects 0.000 claims description 28
- 238000012550 audit Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000003384 imaging method Methods 0.000 claims 1
- 238000003909 pattern recognition Methods 0.000 claims 1
- 238000012806 monitoring device Methods 0.000 abstract description 20
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 13
- 230000033001 locomotion Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000012190 activator Substances 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical compound C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/20—Input arrangements for video game devices
- A63F13/21—Input arrangements for video game devices characterised by their sensors, purposes or types
- A63F13/211—Input arrangements for video game devices characterised by their sensors, purposes or types using inertial sensors, e.g. accelerometers or gyroscopes
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/20—Input arrangements for video game devices
- A63F13/21—Input arrangements for video game devices characterised by their sensors, purposes or types
- A63F13/215—Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/20—Input arrangements for video game devices
- A63F13/21—Input arrangements for video game devices characterised by their sensors, purposes or types
- A63F13/213—Input arrangements for video game devices characterised by their sensors, purposes or types comprising photodetecting means, e.g. cameras, photodiodes or infrared cells
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/10—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
- A63F2300/1087—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals comprising photodetecting means, e.g. a camera
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/60—Methods for processing data by generating or executing the game program
- A63F2300/6063—Methods for processing data by generating or executing the game program for sound processing
- A63F2300/6072—Methods for processing data by generating or executing the game program for sound processing of an input signal, e.g. pitch and rhythm extraction, voice recognition
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/60—Methods for processing data by generating or executing the game program
- A63F2300/6063—Methods for processing data by generating or executing the game program for sound processing
- A63F2300/6081—Methods for processing data by generating or executing the game program for sound processing generating an output signal, e.g. under timing constraints, for spatialization
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
用于基于相对于监听装置的对象的位置对音频信号进行波束形成的方法和系统,该位置由从包括该对象的光学图像所推断的位置数据来确定。在一个实施例中,对象的位置基于对象的视频图像来跟踪,并且从设置在固定位置的麦克风阵列所接收的音频信号基于被跟踪对象位置来滤波。可应用波束形成技术以强调与对象附近的源关联的音频信号的部分。
Description
相关申请的交叉引用
本申请涉及2005年12月12日提交的标题为“METHODS AND SYSTEMS FOR ENABLINGDEPTH AND DIRECTION DETECTION WHEN INTERFACING WITH A COMPUTER PROGRAM”、申请号为11/302511的美国专利申请,并且涉及2006年5月4日提交的标题为“SELECTIVE SOUNDSOURCE LISTENING IN CONJUNCTION WITH COMPUTER INTERACTIVE PROCESSING”的美国专利申请No.11/381721,为了所有目的通过引用将上述两个专利申请的每一个的公开完整地结合到本文中。
本申请还涉及2006年12月14日提交的标题为“METHODS AND APPARATUS FORCAPTURING AUDIO SIGNALS BASED ON A VISUAL IMAGE”的美国专利申请No.11/18989,为了所有目的通过引用将其公开完整地结合到本文中。
技术领域
本发明涉及麦克风阵列转向,以及更具体来说,涉及基于对被跟踪对象所确定的位置信息将阵列转向。
背景技术
许多计算机平台应用利用监听装置来检测声音。麦克风通常用作检测声音的监听装置供结合这些应用使用。麦克风通常配置成检测来自固定区域的声音。不希望的背景噪声也常常被这些监听装置捕获,使得所产生音频信号劣化并且更难以与应用及关联计算机平台配合使用。
麦克风阵列对于通过聚焦于音频源并且消除干扰信号来改进所接收音频的质量是有用的。阵列对于定位在离音频源超过一臂长度的远场麦克风是特别有用的。将麦克风阵列转向到特定方向的常规技术一般依靠与信号如何到达阵列的不同麦克风有关的信息。但是,将阵列接收转向到其中的源的位置的检测是聚焦于音频信号的最棘手方面之一,并且当源动态改变位置时变得更加棘手。
解决定位音频源的问题的现有技术依靠大且复杂的麦克风阵列(例如具有3D麦克风几何结构),并且即使那样估计仍部分因物理限制(例如波束角分离等)而是有噪并且不准确的。因此,来自远场阵列麦克风的音频质量常常在它不适合于诸如语音识别之类的高级信号处理应用的范围上受损失。
附图说明
在说明书的结束部分具体指出并且明确要求保护本发明的实施例。但是,通过参照结合附图来理解的以下详细描述,可透彻地了解关于本发明的实施例的组织和操作方法连同其目的、特征和优点,附图包括:
图1示出按照一个实施例、音频波束形成系统的等距视图,在音频波束形成系统中至少从视觉图像数据所确定的位置信息用于聚焦麦克风阵列;
图2示出按照一个实施例、多玩家环境的等距视图,在多玩家环境中至少从视觉图像数据所确定的位置信息用于对沿不同用户的方向的音频信号进行滤波;
图3示出按照一个实施例的音频波束形成系统的功能模块的框图;
图4A和图4B是示出按照一个实施例、用于提供基于至少从视觉图像数据所确定的位置信息进行转向的音频信号的麦克风阵列的示意图;
图5A和图5B示出按照本发明的一个实施例、具有可基于视觉图像数据来跟踪的球部分的游戏控制器;
图6是按照一个实施例、基于至少从视觉图像数据所确定的位置信息来聚焦音频信号的示范方法的流程图;
图7A是按照一个实施例、基于至少从视觉图像数据所确定的位置信息的示范宽带波束形成方法的流程图;
图7B示出按照一个实施例的音频信号滤波模型;
图8示出按照本发明的一个实施例、可用于适配显示的硬件和用户接口;以及
图9示出按照本发明的一个实施例、可用于处理指令的附加硬件。
为了说明的清楚起见,图中所示的元件不一定按比例绘制。此外,在认为适当的情况下,附图之中重复了参考标号,以表示对应或相似的元件。
具体实施方式
本文描述的是用于基于至少从视觉图像数据所确定的位置信息对音频信号进行滤波的方法和系统。实施例在采用麦克风阵列所接收的音频信号的波束形成中采用从基于图像的对象跟踪系统所确定的位置数据。在一个实施例中,位置信息通过包含对象、例如游戏运动控制器的视觉帧的视频分析来确定。音频滤波器则去除与被跟踪对象并存的区域外部的声源。在某些实施例中,对于目标声源、例如持有对象的用户来改进音频质量,使得具有固定位置的远场麦克风可用于通常为近场麦克风所保留的目的(例如语音识别等)。
虽然提出许多具体细节以便透彻地了解本发明的实施例,但是本领域的技术人员将会理解,即使没有这些具体细节也可实施其它实施例。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。本文中的描述的一些部分根据对计算机存储器中的数据位或二进制数字信号的操作的符号表示和算法来提供。这些算法描述和表示可以是数据处理领域的技术人员用于向本领域的其它技术人员传达其工作的内容的技术。
如本文所使用的“算法”是引起预期结果的一系列独立动作或操作。它们包括物理量的物理操纵。这些量通常但不一定采取能够被存储、传递、组合、比较以及以其它方式操控的电或磁信号的形式。主要为了一般使用的原因,将这些信号称作位、值、元素、符号、字符、项、编号等,已经证明有时非常便利。
除非具体说明,或者另外如从以下论述显而易见,将要理解,在整个描述中,利用诸如“处理”、“计算”、“转换”、“协调”、“确定”或“识别”之类的术语的论述表示计算机平台的动作和过程,其中计算机平台是包括处理器的电子计算装置,处理器将表示为处理器的寄存器和可访问平台存储器中的物理(例如电子)量的数据操纵和变换为类似地表示为计算机平台存储器、处理器寄存器或显示屏幕中的物理量的其它数据。
计算机程序可存储在计算机可读存储介质中,例如但不限于任何类型的磁盘,包括软盘、光盘(例如只读光盘存储器 (CD-ROM)、数字视频光盘(DVD)、Blu-Ray DiscsTM等)以及磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁或光卡或者适合于存储电子指令的任何其它类型的非暂时介质。
术语“耦合”和“连接”连同其派生在本文中可用于描述执行本文的操作的设备的组件之间的结构关系。应当理解,这些术语并不是要作为彼此的同义词。相反,在具体实施例中,“连接”可用于指明两个或更多单元相互直接物理或电气接触。“耦合”可用于指明两个或更多元件相互直接或间接地(隔着其它中间元件)进行物理或电接触,和/或两个或更多元件相互配合操作或通信(例如,如同因果关系一样)。
图1示出按照一个实施例、音频波束形成系统100的等距视图,在音频波束形成系统100中至少从视觉图像数据所确定的位置信息用于对麦克风阵列聚焦或转向。在本文详细描述的示范实施例中,音频波束形成系统100是游戏系统的组件。备选地,音频波束形成系统100可以是运动捕获系统的组件,它可用于许多容量 (capacity),例如但不限于安全系统和通信系统。
音频波束形成系统100包括耦合到显示屏幕120的计算装置115。计算装置115包括计算机处理器,以及至少负责在显示屏幕120上生成输出,并且还可执行下列的一个或多个:用于对象位置跟踪的图像分析以及用于音频信号的滤波的音频信号处理,如本文所述。计算装置115可专门构造用于所需目的,或者它可包括通过计算机中存储的计算机程序有选择地激活或重新配置的通用计算机。在一个实施例中,计算装置115是具有作为常规显示器(例如LCD、OLED、 CRT等)的显示屏幕120的游戏控制台(例如Sony等)。
音频波束形成系统100还包括收集视场(FOV)125的视觉图像数据的光学传感器105。FOV125是光学传感器105的帧中成像的给定场景的角范围。有线连接的示例包括经由IEEE1394(火线) 电缆、以太网电缆、通用串行总线(USB)电缆、高清晰度媒体接口 (HDMI)等进行的连接。无线连接的示例包括无线保真(WiFiTM)连接、连接、连接等。在所示实施例中,光学传感器105 经由与固定定位(例如在显示屏幕120顶部)的光学传感器105的有线连接与计算装置115连接。在一个实施例中,光学传感器105是标准清晰度或高清晰度(HD)摄像机。
音频波束形成系统100将分析FOV125中包含的对象 110的视觉图像捕获,以便确定对象110的位置。因此,基于来自光学传感器105的视觉图像数据,对象110将例如通过模式识别算法的执行以及作为时间(例如实时)的函数所确定的对象110的位置来识别。良好图像识别的典型距离大约为10英尺(3米)。在一个实施例中,对象110的位置通过位置信息来定义,位置信息在极坐标中包括半径 r(130)、倾角θ(131)和方位角(132)。例如,光学传感器105可基于识别对象110的大小的预定义信息和/或基于识别光学传感器105的 FOV125的预定义信息来捕获深度信息(光学传感器105与对象110 之间的半径(r)130)。当对象110进一步移动离开光学传感器105时 (即,当半径(r)130增加时),如光学传感器105所捕获的对象110的图像变小。因此,对象110到光学传感器105的半径130可基于被跟踪对象110的图像大小(例如,如以像素测量)与被跟踪对象110的已知实际大小的比率来确定,只要光学传感器105的FOV125是已知的。在其它实施例中,光学传感器105是Z照相装置(能够捕获具有深度信息的视频的单透镜摄像机)或者立体摄像机(具有能够捕获三维图像的2个或更多透镜的摄像机)。对于这类实施例,光学传感器 105能够捕获深度信息,而无需预先配置有识别对象110的大小的信息。
在对象110是音频波束形成系统100的用户的一个实施例中,头部跟踪采用模板匹配(用于速度性能)、结合基于眼部和其它脸部特征以识别用户脸部的位置的脸部检测代码的组合来完成。对于关于头部和脸部检测的附加信息,可参照美国专利申请10/663236。
在一个实施例中,对象110是音频波束形成系统100的一部分,并且可具有经由光学传感器105所提供的图像数据促进其识别的属性。对象110可以是经由有线或无线连接到计算装置115的用户输入装置或者计算装置115的控制器的至少一部分。图5A和图5B 示出各具有可基于视觉图像数据来跟踪的球部分的示范游戏控制器 110A和110B。这类控制器是市场销售的,如SonyMove 运动控制器。图5A中,游戏控制器110A具有球部分505,而在图5B中,游戏控制器110B具有球部分515。在某些实施例中,球部分 505和515对应于图1的对象110。
球部分505、515能够具有不同颜色,以及在一个实施例中,球部分505、515能够点亮。虽然示出球形球部分,但是球部分505、515能够为了便于视觉跟踪而具有其它形状,例如部分球体、不完全球体、延长球、类似立方体形状等。
在其它实施例中,对象110(例如图5A的游戏控制器 110A)包括在对象110中具有固定位置的一个或多个惯性传感器。在一个实施例中,惯性传感器包括一个或多个陀螺仪和一个或多个加速计(例如MEM),以便检测对象110的取向的变化(例如俯仰、滚动和扭曲的变化,本文中一般全部称作γ),并且测量沿一个或多个轴的加速度。取向的变化γ还可作为波束形成算法中的位置信息来包含。
在音频波束形成系统100包括对象110、例如游戏控制器的某些实施例中,由对象110所促进的对象110的视觉跟踪可按照如下方式连同脸部检测代码一起使用:使用对象110的位置,基于眼部和其它脸部特征来确定用户脸部的位置。描述用户脸部的位置的位置信息则用于本文所述的音频波束形成。
回到图1,音频波束形成系统100包括监听装置106。在一个实施例中,监听装置106包括形成麦克风阵列的多个麦克风。各麦克风可以是全向麦克风,使得监听装置106具有宽监听区域 126(比FOV125要大许多)。虽然多个麦克风可包括按照任何几何结构(例如1-D、2-D和3-D阵列)所设置的任何数量的麦克风,但是在图4A所示的示范实施例中,麦克风阵列402包括在第一维、例如沿图1所示的x1或x2维间隔开的四个麦克风M0、M1、M2和M3。对于监听装置106和光学传感器105是同一摄像机的组成部分的一个实施例中,麦克风M0、M1、M2和M3可与光学传感器105共享光学传感器参考系150,使得方位角132等于图4A中的(M0、M1、M2和M3沿x1轴排列)。在其它实施例中,监听装置106和光学传感器105 可以是同一摄像机的组成部分,但是监听装置106是固定基座的一部分,而光学传感器105相对于监听装置106沿X、Y、Z方向的任一个是可旋转的,或者监听装置106和光学传感器105是完全独立和无关的组件。对于那些实施例的任一个,麦克风M0、M1、M2和M3可具有将要通过校准例程来确定的与光学传感器105不同的参考系(例如M0、M1、M2和M3沿x2排列),使得基于光学传感器参考系150所确定的位置信息可应用于监听装置106所接收的音频信号。例如,可执行光学传感器105和监听装置106的每个的校准例程,因此全球参考系140(定义为具有与重力135对齐的轴y2的参考系)可由光学传感器105和监听装置106共享。
无论对象110是音频波束形成系统100的一部分(例如作为游戏控制器)还是音频波束形成系统100的用户,音频波束形成系统100均接收来自监听装置106的音频信号,设置成离开对象110 超过一臂长度(例如,大约10英尺(3米))的监听装置106在远场容量中起作用。由音频波束形成系统100通过分析对象110的视觉图像对于对象110所确定的位置信息的至少某个分量(r、θ、γ)将与监听装置106相关,使得麦克风阵列402所生成的音频信号可作为对象 110的位置的函数来滤波。在一个实施例中,滤波将使用转向角来强调最接近对象110的音频源。可去除或消除在比阈值高于和低于大约为的角度的音频信号,以便使目标监听区域127定位到对象 110(例如,以对象110为中心)。换言之,音频信号可基于对象110 的位置从较大监听区域(例如监听区域126)“聚焦”到较小监听区域(例如目标区域127)。类似地,通过相对于对象110的移动而移动目标监听区域127,音频信号可基于对象110的位置来“转向”。换言之,音频信号滤波利用转向角,转向角被更新以跟随视觉跟踪对象110。应当注意,虽然示范实施例要求强调接近对象110的音频源,但是类似技术可实现相反方面(例如滤出(filter out)而不是滤进(filter in)接近对象110的音频源)。
图2示出按照一个实施例、多玩家环境的等距视图,在多玩家环境中至少从视觉图像数据所确定的位置信息用于对沿不同用户的方向的音频信号进行波束形成。在多玩家环境中,音频波束形成系统200包括在音频波束形成系统100(图1)中所述的相同组件,但是具有两个对象,即游戏控制器110A和110B。如所示,玩家A 与游戏控制器110A关联,而玩家B与游戏控制器110B关联。对于图2所示的示范实施例,音频波束形成系统200包括与音频波束形成系统100相同数量的麦克风(即,一个监听装置106),其中游戏控制器110A和110B没有包括集成监听装置。对于这类实施例,远场麦克风阵列204的聚焦可在多玩家环境中基于分别对游戏控制器110A 和110B所确定的位置信息用来强调目标监听区域227A和227B的任一个或两者。光学传感器107得到游戏现场218的图像。分析图像以得到如采用包括rA和rB、θA和θB、和的位置信息向量所定义的游戏控制器110A和110B的位置。位置信息可通过分析所捕获图像中的相应游戏控制器的形状和大小来估计。从那个位置信息,计算装置115可在显示屏幕120中产生玩家的表示(分别为化身212a和 212b),以及音频信号处理可被运行以控制目标监听区域227A和 227B。因此,虽然仅基于音频处理可能很难可靠地跟踪作为声源的玩家A,但是当玩家A经过玩家B前面(或后面)时,视觉对象跟踪的使用通过消除检测问题来极大地改进音频波束形成。
在其它实施例中,音频信号处理可按照与被跟踪对象的取向的变化进一步相关的方式来运行。例如,音频转向角可响应对象取向的变化而从被跟踪对象的视觉确定位置偏移,如图2中由基于位置信息的γ分量从游戏控制器110B偏移长度L的监听区域227B所表示。
在其它实施例中,音频信号的转向可基于计算装置115 上运行的游戏的状态或者基于游戏控制器110A和110B的状态而发生。例如,在游戏在玩家A与玩家B之间交替进行的情况下,音频波束形成系统200可基于所选对象来执行音频处理,以便在目标监听区域227A与目标监听区域227B之间进行交替。作为另一个示例,游戏控制器110A和110B的每个可具有用户激活按钮,该按钮改变游戏控制器的状态,以便调用音频信号处理,音频信号处理将监听区域聚焦为以游戏控制器为中心,由此提供各用户的虚拟近场麦克风。
图3示出按照一个实施例的音频波束形成系统300的功能模块的框图。图6是按照一个实施例、可由音频波束形成系统300 来运行的、基于至少从视觉图像数据所确定的位置信息对音频信号进行滤波的示范方法的流程图。
首先参照图6,在操作605,包含FOV中的对象的视觉图像由例如视频装置301(图3)随时间而收集。
在操作602,来自麦克风阵列的音频信号例如由麦克风阵列402(图3)随时间而生成。如图3进一步所示,麦克风阵列402 输出音频信号向量x=[x0,x1,x2,x3],其中x0,x1,x2和x3是对于从一个或多个源404到达的声音分别由麦克风M0、M1、M2和M3所接收和生成的时域信号。
在操作615(图6),各对象110(A、B等)随时间的对象位置信息由所接收图像数据(帧)以及从惯性传感器316所接收的惯性数据来生成。如图3进一步所示,例如,阵列 {(rA0,θA0,γA0),(rB0,θB0,γB0),(rA1,θA1,γA1),(rB1,θB1,γB1),...}可由对象跟踪模块315对于被跟踪对象100A、100B等随时间来输出。在所示示范实施例中,对象跟踪模块315是用于作为对计算装置115 的附属物/升级进行提供的视频装置301的组件。然而,在其它实施例中,对象跟踪模块315是计算装置115的组件。将从对象跟踪模块315所输出的位置信息提供给所耦合应用引擎325(用于更新所渲染图形对象等)以及通信上耦合的音频信号处理器320。
取决于是否选择任何对象(例如图3的对象110A、110B 等)以提供音频波束形成的位置基础,所接收音频信号要么在操作 618(图6)在没有基于被跟踪对象位置的空间滤波的情况下被传递,要么在操作620基于被跟踪对象的位置信息来滤波。
一般来说,在620的音频信号的滤波可按照将使位置信息的至少一个分量(例如r、θ、γ)的输入适合于定义转向角(例如) 的本领域已知的任何方式进行。滤波将分离声源,以及强调(聚焦)或不强调定位到被跟踪对象110的位置的源(例如在监听区域轮廓阈值之内)。参照图4A和图4B,所接收数字信号y(t)能够被看作是各麦克风所接收的单独信号xn(t)的求和。由于麦克风之间的空间距离d,存在由各麦克风(在所示示例中定位到麦克风M0)所检测的信号中的延迟τn。因此,所接收信号能够表示为:
假定仅对方向进行转向(给定θ=π/2)。各输入信号的相位能够以下式来改变:
其中,d是麦克风之间的距离,f是输入信号的频率,是对其进行转向的角度,以及c是给定介质中的波的传播速度。可类似地得出使用sin()函数的类似表示。
定向模式是输入信号的频率和转向角的函数:
它可通过将下列形式的相位延迟加入来自各麦克风的信号来实现:
但是,等式(1)-(4)一般限制到“窄带”情况,其中信号的带宽足够窄,使得在麦克风阵列402的对端所接收的信号仍然彼此完全相互关联。在本文所述的波束形成系统结合到游戏系统的实施例中,这无法得到保证。例如,在图2所示的示范实施例中,监听装置 106的大小是这样的,使得语音信号的带宽比麦克风阵列(例如麦克风阵列402)要宽,以及麦克风阵列将不会接收如许多阵列处理技术中通常假定的平面波前。因此,在某些实施例中,宽带波束形成算法由音频信号处理器320来执行。
图7A是按照一个实施例、基于至少从视觉图像数据所确定的位置信息的示范宽带波束形成方法的流程图。对于宽带波束形成实施例,所记录语音信号y(t)的例如大约每隔8毫秒的预定间隔在操作702形成为分析帧。信号则在操作704例如通过进行傅立叶变换从时域变换为频域,并且所产生等式可对频域输出信号Y(N)来求解。这相当于对J+1帧执行傅立叶变换(例如采用快速傅立叶变换(fft)),其中傅立叶变换中的各频率点是(J+1)×1列向量。频率点的数量等于 N+1,并且每个频率点确定大小为具有适合被当作窄带信号的带宽。
在操作706,(例如从操作615)所接收的位置信息用于将一系列延迟应用于输入信号,使得波束形成对多个频率点执行。滤波器组用于补偿在麦克风中对于不同频率分量所接收的每一个信号的相位差。对于这类实施例,所接收信号可描述为:
其中J是关联到n个麦克风的每个的多个延迟元件的数量。w* n,i的集合是以J个频率点划分输入信号的有限脉冲滤波器或无限脉冲滤波器的系数,以及Ts是滤波器的相邻元件之间的延迟。图7B示出示范滤波器750,其中Δ表示组成滤波器的元件中应用的延迟,以及 w* n-1,i是滤波器的权重集合。滤波器750可通过硬件或软件或者硬件和软件两者的组合来实现(例如通过音频信号处理器320)。各麦克风和各频率点i的滤波器系数可从最佳地分出定位到被跟踪对象110的位置的声源和源自所去除的对象定位监听区域外部的音频信号的部分的输入信号xn-1(t)来计算。在其它实施例中,当对象110移动时或者当选择不同对象时,计算滤波器系数以用于将音频信号从第一位置转向到第二位置。
在其它实施例中,为了避免空间和频率混叠,在操作 706所采用的滤波器设计成使得满足下列条件:
因此,方法700生成适合采用以被跟踪对象的最近确定位置信息周期地更新的滤波器来分离输入宽带语音信号的频率分量的滤波器。例如,对于在操作615的对象110的位置的每个新读数,计算新转向角(例如),并且采用那个转向角来更新滤波器的系数。
图8还示出按照本发明的一个实施例、可用于基于眼部跟踪来适配显示的硬件和用户接口。图8示意示出 3娱乐装置、可适合实现本文所述的自适应显示方法的控制台的总体系统架构。平台单元1400提供有可连接到平台单元1400的各种外围装置。平台单元1400包括:Cell处理器1428;动态随机存取存储器(XDRAM)单元1426;具有专用视频随机存取存储器 (VRAM)单元1432的现实模拟器图形单元1430;以及I/O桥接器 1434。平台单元1400还包括通过I/O桥接器1434可访问的用于从磁盘1440A进行读取的BluDisk光盘读取器1440和可移动插入式硬盘驱动器(HDD)1436。可选地,平台单元1400还包括类似地通过I/O桥接器1434可访问的用于读取袖珍闪存卡、Memory存储卡等的存储卡读取器1438。
I/O桥接器1434还连接到多个通用串行总线(USB)2.0 端口1424、吉比特以太网端口1422、IEEE802.11b/g无线网络(Wi-Fi) 端口1420以及能够支持总共七个蓝牙连接的无线链路端口1418。
在操作中,I/O桥接器1434处理所有无线、USB和以太网数据,包括来自一个或多个游戏控制器1402的数据。例如,当用户正进行游戏,I/O桥接器1434经由蓝牙链路接收来自游戏(运动) 控制器1402的数据,并且将它导向Cell处理器1428,Cell处理器1428 相应地更新游戏的当前状态。
除了游戏控制器1402之外,无线、USB和以太网端口还提供其它外围装置的连通性,例如:遥控1404;键盘1406;鼠标 1408;便携娱乐装置1410,例如SonyPortable娱乐装置;视频图像传感器,例如Eye视频图像传感器1412;麦克风耳机1414;麦克风阵列1415。因此,这类外围装置大体上可无线地连接到平台单元1400;例如,便携娱乐装置1410可经由Wi-Fi自组连接进行通信,而麦克风耳机1414可经由蓝牙链路进行通信。
这些接口的提供意味着,Playstation3装置也潜在地与其它外围装置兼容,例如数字录像机(DVR)、机顶盒、数字视频图像传感器、便携媒体播放器、基于IP的语音电话、移动电话、打印机和扫描仪。
游戏控制器1402可操作以经由蓝牙链路与平台单元 1400无线地通信,或者连接到USB端口,由此还提供用以对游戏控制器1402的电池进行充电的电力。游戏控制器1402还能够包括存储器、处理器、存储读卡器、诸如闪速存储器之类的永久存储器、诸如 LED或红外光的光发射器、麦克风和喇叭、数字视频图像传感器、内部时钟、诸如面向游戏控制台的球形部分之类的可识别/可标识形状以及使用诸如WiFiTM等的协议的无线通信。
游戏(运动)控制器1402是设计成与两手配合使用的控制器。除了一个或多个模拟操纵杆和常规控制按钮之外,游戏控制器还易受三维位置确定的影响。因此,游戏控制器的用户的手势和移动可被转化为对游戏的输入,作为常规按钮或操纵杆命令的补充或替代。可选地,诸如PlaystationTM Portable装置之类的其它无线使能外围装置可用作控制器。在PlaystationTM Portable装置的情况下,附加游戏或控制信息(例如控制指令或生命数量)可在装置的屏幕上提供。还可使用其它备选或补充控制装置,例如跳舞毯(未示出)、光枪(未示出)、转向轮和踏板(未示出)等。
遥控1404还可操作以经由蓝牙链路与平台单元1400无线地通信。遥控1404包括适合于Blu RayTM Disk BD-ROM读取器 1440的操作和光盘内容的导航的控件。
除了常规预先记录和可记录CD以及所谓的超级音频 CD之外,Blu RayTM Disk BD-ROM读取器1440还可操作以读取与 Playstation和PlayStation2装置兼容的CD-ROM。除了常规预先记录和可记录DVD之外,读取器1440还可操作以读取与Playstation2和PlayStation3装置兼容的DVD-ROM。读取器1440还可操作以读取与 Playstation3装置兼容的BD-ROM以及常规预先记录和可记录 Blu-Ray光盘。
平台单元1400可操作以提供由Playstation3装置经由现实模拟器图形单元1430通过到诸如显示器120之类的显示和声音输出装置的音频和视频连接器所生成或解码的音频和视频。音频连接器 1450可包括常规模拟和数字输出,而视频连接器1452可以不同地包括分量视频、S视频、合成视频以及一个或多个高清晰度多媒体接口 (HDMI)输出。因此,视频输出可采取诸如PAL或NTSC之类的格式或者720p、1080i或1080p高清晰度。
在一个实施例中,视频图像传感器1412包括单个电荷耦合器件(CCD)和LED指示器。在一些实施例中,传感器1412包括基于软件和硬件的实时数据压缩和编码设备,使得压缩视频数据可采取诸如基于图像内的MPEG(运动图像专家组)标准之类的适当格式来传送以供平台单元1400进行解码。视频图像传感器LED指示器设置成响应来自平台单元1400的适当控制数据而照亮,例如以便表示不利的照明条件。视频图像传感器1412的实施例可经由HDMI、USB、蓝牙或Wi-Fi通信端口不同地连接到平台单元1400。视频图像传感器的实施例可包括一个或多个关联麦克风,并且还能够传送音频数据。在视频图像传感器的实施例中,CCD可具有适合于高清晰度视频捕获的分辨率。在使用中,由视频图像传感器所捕获的图像例如可结合在游戏中或者解释为游戏控制输入。在另一个实施例中,视频图像传感器是适合于检测红外光的红外视频图像传感器。
图9示出按照本发明的一个实施例、可用于处理指令的附加硬件。如图6进一步所示,图8的Cell处理器1428具有包括四个基本组件的架构:外部输入和输出结构,包括存储控制器1560和双总线接口控制器1570A、B;主处理器,称作功率处理元件1550;八个协处理器,称作协作处理元件(SPE)1510A-H;以及连接上述组件的循环数据总线,称作元件互连总线1580。与Playstation2装置的 Emotion Engine的6.2GFLOP相比,Cell处理器的总浮点性能为1428 GFLOP。
功率处理元件(PPE)1550基于以3.2GHz的内部时钟运行的符合双向并发多线程功率1470的PowerPC核心(PPU)1555。它包括512kB第2级(L2)高速缓存1552以及32kB第1级(L1)高速缓存1551。PPE1550能够每时钟周期进行八个单位置操作,从而转换成在3.2GHz的25.6GFLOP。PPE1550的主要作用是充当处理大多数计算工作负荷的SPE1510A-H的控制器。在操作中,PPE1550保持任务队列,从而调度SPE1510A-H的任务并且监测其进度。因此,每个SPE1510A-H运行内核,其作用是取任务,运行任务,并且与 PPE1550同步。
各协作处理元件(SPE)1510A-H包括相应协作处理单元(SPU)1520A-H和相应存储器流控制器(MFC)1540A-H,相应存储器流控制器(MFC)1540A-H又包括相应动态存储器存取控制器 (DMAC)1542A-H、相应存储器管理单元(MMU)1544A-H和总线接口 (未示出)。每个SPU1520A-H是时钟为3.2GHz并且包括大体上可扩展到4GB的256kB本地RAM1530A-H的RISC处理器。每个SPE 给出理论25.6GFLOPS的单精度性能。SPU能够在单个时钟周期中对4个单精度浮点构件、4个32位数、8个16位整数或者16个8位整数进行操作。在同一时钟周期中,它还能够执行存储器操作。SPU 1520A-H没有直接访问系统存储器XDRAM1426;将SPU1520A-H所形成的64位地址传递给MFC1540A-H,MFC1540A-H指示其DMA 控制器1542A-H经由元件互连总线1580和存储控制器1560来访问存储器。
元件互连总线(EIB)1580是Cell处理器1428内部的逻辑循环通信总线,它将上述处理器元件、即PPE1550、存储控制器1560、双总线接口控制器1570A、B以及8个SPE1510A-H-总共12个参与方连接起来。参与方能够以每个时钟周期8个字节的速率同时对总线进行读取和写入。如前面所述,每个SPE1510A-H包括用于调度较长读和写序列的DMAC1542A-H。EIB包括四个信道,在顺时针和逆时针方向各两个。因此,对于12个参与方,任何两个参与方之间的最长步进式数据流在适当方向为六个步长。因此,在通过参与方之间的仲裁完全利用的情况下,12个时隙的理论峰值瞬时EIB带宽为每时钟96B。这等于在3.2GHz的时钟速率的307.2GB/s(吉字节每秒)的理论峰值带宽。
存储控制器1560包括由Rambus Incorporated所开发的 XDRAM接口1378。存储控制器采用25.6GB/s的理论峰值带宽与 Rambus XDRAM1426进行接口。
双总线接口控制器1570A、B包括Rambus系统接口1572A、B。将该接口组织为各为8位宽的12个信道,其中具有入站的五个通路和出站的七个通路。
要理解,以上描述意在是说明性而不是限制性的。例如,虽然图中的流程图示出本发明的某些实施例所执行的操作的特定顺序,但是应当理解,这种顺序不作要求(例如备选实施例可按照不同顺序来执行操作、组合某些操作、重叠某些操作等)。此外,通过阅读和了解以上描述,许多其它实施例将是本领域的技术人员显而易见的。虽然参照具体示范实施例描述了本发明,但是将会知道,本发明并不局限于所述的实施例,而是能够在所附权利要求书的精神和范围之内,经过修改和变更来实施。因此,本发明的范围应当参照所附权利要求连同这类权利要求涵盖的完整等效范围共同确定。
Claims (16)
1.一种聚焦麦克风阵列的方法,包括:
接收来自所述麦克风阵列的音频信号,其中所述麦克风阵列设置成离音频波束形成系统的第一组件某个距离;
从相对于所述麦克风阵列具有已知位置的光学图像传感器接收来自形成视频段的多个图像的视觉图像,所述视觉图像包括视场中的所述第一组件;
通过分析视觉图像并且基于所述第一组件的预定大小来确定所述第一组件和所述光学图像传感器之间的距离,从而确定相对于所述麦克风阵列的所述第一组件的位置信息;
基于所述视觉图像的变化来跟踪相对于所述光学图像传感器的所述第一组件的位置的变化;以及
对所述音频信号进行滤波以便基于作为位置信息的函数的波束形成算法并且基于所述第一组件的位置的变化来强调或不再强调接近所述第一组件的音频源。
2.如权利要求1所述的方法,其中,对所述音频信号进行滤波还包括将所述音频信号从第一位置转向到所述第一组件的位置。
3.如权利要求1所述的方法,其中,对所述音频信号进行滤波还包括去除源自以所述第一组件为中心的监听区域外部的所述音频信号的部分。
4.如权利要求1所述的方法,其中,分析所述视觉图像还包括:
采用模式识别算法来识别所述第一组件;以及
计算相对于所述光学图像传感器的所述第一组件的位置。
5.如权利要求4所述的方法,其中,计算相对于所述光学图像传感器的所述第一组件的位置还包括确定从光轴指向所述第一组件的中心的三维向量。
6.如权利要求4所述的方法,还包括接收所述第一组件的取向的变化,以及其中,基于所述第一组件的所确定位置对所述音频信号进行滤波还包括基于所述取向的变化来确定是否从所述第一组件的所确定位置偏移音频转向角。
7.如权利要求1所述的方法,其中,基于所述第一组件的所确定位置对所述音频信号进行滤波还包括:
将所接收音频信号变换为频域;
将音频信号分离为离散频带;以及
应用所述位置信息的至少一个分量以对所述频带的每个中的音频信号进行滤波。
8.如权利要求1所述的方法,还包括:
分析所述视觉图像,以便确定相对于所述麦克风阵列的所述音频波束形成系统的第二组件的位置;以及
基于所述第二组件的所确定位置将所述音频信号从所述第一组件朝向所述第二组件转向。
9.如权利要求8所述的方法,其中,朝向所述第二组件的转向还包括基于所述第一组件的所述位置信息来去除源自所述第一组件附近的所述音频信号的部分。
10.一种聚焦麦克风阵列的系统,包括:
计算平台;
麦克风阵列,耦合到所述计算平台以便接收音频信号;以及
光学图像传感器,耦合到所述计算平台,其中所述计算平台还包括:
对象跟踪模块,通过分析来自所述光学图像传感器的视觉图像来确定相对于所述麦克风阵列的音频波束形成系统的第一组件的位置信息和第二组件的位置信息,所述视觉图像包括所述光学图像传感器的视场中的所述第一组件和所述第二组件;以及
音频信号处理器,基于作为所述第一组件的位置信息的函数的波束形成算法来强调或不再强调接近所述第一组件的音频源,并且,基于所述第二组件的位置信息来将所接收的音频信号从所述第一组件转向到所述第二组件。
11.如权利要求10所述的系统,其中,所述麦克风阵列与所述光学图像传感器集成到设置成离所述第一组件某个距离的摄像机中。
12.如权利要求11所述的系统,其中,所述对象跟踪模块基于所述视觉图像的变化来跟踪所述第一组件的位置信息的变化;并且其中所述音频信号处理器采用基于所述第一组件的位置信息的变化所生成的滤波器系数来将所述音频信号转向。
13.如权利要求10所述的系统,其中,所述音频信号处理器:
将所接收音频信号变换为频域;
将音频信号分离为离散频带;以及
应用所述第一组件的位置信息和所述第二组件的位置信息的至少一个分量以对所述频带的每个中的音频信号进行滤波。
14.如权利要求10所述的系统,其中,所述第一组件是所述计算平台的第一控制器,包括一个或多个惯性传感器,并且采集惯性数据并且将其传送给所述计算平台。
15.如权利要求14所述的系统,其中,所述音频信号处理器基于所述惯性数据采用从所述第一组件的所确定位置偏移的音频转向角对所接收的音频信号进行滤波。
16.如权利要求12所述的系统,其中,所述音频信号处理器基于所述第一组件的所述位置信息去除源自所述第一组件附近的所述音频信号的部分。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/969,896 US8761412B2 (en) | 2010-12-16 | 2010-12-16 | Microphone array steering with image-based source location |
US12/969896 | 2010-12-16 | ||
US12/969,896 | 2010-12-16 | ||
PCT/US2011/062657 WO2012082379A1 (en) | 2010-12-16 | 2011-11-30 | Microphone array steering with image-based source location |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103404169A CN103404169A (zh) | 2013-11-20 |
CN103404169B true CN103404169B (zh) | 2018-06-12 |
Family
ID=46234474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180068553.5A Active CN103404169B (zh) | 2010-12-16 | 2011-11-30 | 聚焦麦克风阵列的方法及系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8761412B2 (zh) |
CN (1) | CN103404169B (zh) |
WO (1) | WO2012082379A1 (zh) |
Families Citing this family (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120277001A1 (en) * | 2011-04-28 | 2012-11-01 | Microsoft Corporation | Manual and Camera-based Game Control |
US20140278396A1 (en) * | 2011-12-29 | 2014-09-18 | David L. Graumann | Acoustic signal modification |
US8704070B2 (en) * | 2012-03-04 | 2014-04-22 | John Beaty | System and method for mapping and displaying audio source locations |
US9760966B2 (en) | 2013-01-08 | 2017-09-12 | Nvidia Corporation | Parallel processor with integrated correlation and convolution engine |
GB2516056B (en) | 2013-07-09 | 2021-06-30 | Nokia Technologies Oy | Audio processing apparatus |
JP5958717B2 (ja) * | 2013-07-19 | 2016-08-02 | パナソニックIpマネジメント株式会社 | 指向性制御システム、指向性制御方法、収音システム及び収音制御方法 |
US20150022636A1 (en) * | 2013-07-19 | 2015-01-22 | Nvidia Corporation | Method and system for voice capture using face detection in noisy environments |
WO2015048030A1 (en) | 2013-09-24 | 2015-04-02 | Sony Computer Entertainment Inc. | Gaze tracking variations using visible lights or dots |
US9468373B2 (en) | 2013-09-24 | 2016-10-18 | Sony Interactive Entertainment Inc. | Gaze tracking variations using dynamic lighting position |
US9781360B2 (en) * | 2013-09-24 | 2017-10-03 | Sony Interactive Entertainment Inc. | Gaze tracking variations using selective illumination |
US9769550B2 (en) | 2013-11-06 | 2017-09-19 | Nvidia Corporation | Efficient digital microphone receiver process and system |
US9402095B2 (en) | 2013-11-19 | 2016-07-26 | Nokia Technologies Oy | Method and apparatus for calibrating an audio playback system |
KR20150068112A (ko) * | 2013-12-11 | 2015-06-19 | 삼성전자주식회사 | 오디오를 추적하기 위한 방법 및 전자 장치 |
US9338575B2 (en) * | 2014-02-19 | 2016-05-10 | Echostar Technologies L.L.C. | Image steered microphone array |
US9282399B2 (en) | 2014-02-26 | 2016-03-08 | Qualcomm Incorporated | Listen to people you recognize |
WO2015143055A1 (en) | 2014-03-18 | 2015-09-24 | Robert Bosch Gmbh | Adaptive acoustic intensity analyzer |
US20150281839A1 (en) * | 2014-03-31 | 2015-10-01 | David Bar-On | Background noise cancellation using depth |
WO2015168901A1 (en) * | 2014-05-08 | 2015-11-12 | Intel Corporation | Audio signal beam forming |
US10031721B2 (en) * | 2014-05-15 | 2018-07-24 | Tyco Safety Products Canada Ltd. | System and method for processing control commands in a voice interactive system |
US9338544B2 (en) * | 2014-06-03 | 2016-05-10 | Cisco Technology, Inc. | Determination, display, and adjustment of best sound source placement region relative to microphone |
EP2988302A1 (en) * | 2014-08-21 | 2016-02-24 | Patents Factory Ltd. Sp. z o.o. | System and method for separation of sound sources in a three-dimensional space |
DE102014217598A1 (de) * | 2014-09-03 | 2016-03-03 | Gesellschaft zur Förderung angewandter Informatik e.V. | Verfahren und Anordnung zur Erfassung von akustischen und optischen Informationen sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium |
US9554207B2 (en) | 2015-04-30 | 2017-01-24 | Shure Acquisition Holdings, Inc. | Offset cartridge microphones |
US9565493B2 (en) * | 2015-04-30 | 2017-02-07 | Shure Acquisition Holdings, Inc. | Array microphone system and method of assembling the same |
US10043281B2 (en) | 2015-06-14 | 2018-08-07 | Sony Interactive Entertainment Inc. | Apparatus and method for estimating eye gaze location |
EP3131311B1 (en) | 2015-08-14 | 2019-06-19 | Nokia Technologies Oy | Monitoring |
US20170188140A1 (en) * | 2015-12-24 | 2017-06-29 | Intel Corporation | Controlling audio beam forming with video stream data |
CN105702261B (zh) * | 2016-02-04 | 2019-08-27 | 厦门大学 | 带相位自校正功能的声聚焦麦克风阵列长距离拾音装置 |
CN105611478B (zh) * | 2016-03-14 | 2019-04-23 | 互联天下科技发展(深圳)有限公司 | 一种实时定位录音装置及方法 |
CN106157986B (zh) * | 2016-03-29 | 2020-05-26 | 联想(北京)有限公司 | 一种信息处理方法及装置、电子设备 |
CN117612539A (zh) * | 2016-05-30 | 2024-02-27 | 索尼公司 | 视频音频处理设备、视频音频处理方法和存储介质 |
US10074012B2 (en) | 2016-06-17 | 2018-09-11 | Dolby Laboratories Licensing Corporation | Sound and video object tracking |
CN107026934B (zh) | 2016-10-27 | 2019-09-27 | 华为技术有限公司 | 一种声源定位方法和装置 |
GB2556058A (en) * | 2016-11-16 | 2018-05-23 | Nokia Technologies Oy | Distributed audio capture and mixing controlling |
CN108089152B (zh) * | 2016-11-23 | 2020-07-03 | 杭州海康威视数字技术股份有限公司 | 一种设备控制方法、装置及系统 |
US10531187B2 (en) | 2016-12-21 | 2020-01-07 | Nortek Security & Control Llc | Systems and methods for audio detection using audio beams |
JP2018107603A (ja) * | 2016-12-26 | 2018-07-05 | オリンパス株式会社 | センサ情報取得装置、センサ情報取得方法、センサ情報取得プログラム及び医療器具 |
US10291998B2 (en) * | 2017-01-06 | 2019-05-14 | Nokia Technologies Oy | Discovery, announcement and assignment of position tracks |
US10367948B2 (en) | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
US11215709B2 (en) | 2017-04-21 | 2022-01-04 | Hewlett-Packard Development Company, L.P. | Audio data gather |
US20190051395A1 (en) | 2017-08-10 | 2019-02-14 | Nuance Communications, Inc. | Automated clinical documentation system and method |
US11316865B2 (en) | 2017-08-10 | 2022-04-26 | Nuance Communications, Inc. | Ambient cooperative intelligence system and method |
CN109696658B (zh) | 2017-10-23 | 2021-08-24 | 京东方科技集团股份有限公司 | 采集设备、声音采集方法、声源跟踪系统及其方法 |
KR20190053055A (ko) | 2017-11-09 | 2019-05-17 | 삼성전자주식회사 | 음원 취득 장치를 이용한 설비 고장 위치 판단 방법 및 이를 수행하는 설비 고장 위치 판단 시스템 |
EP3762921A4 (en) | 2018-03-05 | 2022-05-04 | Nuance Communications, Inc. | AUTOMATED CLINICAL DOCUMENTATION SYSTEM AND PROCESS |
EP3762805A4 (en) | 2018-03-05 | 2022-04-27 | Nuance Communications, Inc. | SYSTEM AND PROCEDURE FOR VERIFICATION OF AUTOMATED CLINICAL DOCUMENTATION |
US11250383B2 (en) | 2018-03-05 | 2022-02-15 | Nuance Communications, Inc. | Automated clinical documentation system and method |
EP3804356A1 (en) | 2018-06-01 | 2021-04-14 | Shure Acquisition Holdings, Inc. | Pattern-forming microphone array |
US11297423B2 (en) | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
WO2020061353A1 (en) | 2018-09-20 | 2020-03-26 | Shure Acquisition Holdings, Inc. | Adjustable lobe shape for array microphones |
CN113196737B (zh) * | 2019-01-09 | 2022-10-11 | 杭州他若定位科技有限公司 | 使用基于图像的对象跟踪进行定向声音捕获 |
US10832695B2 (en) | 2019-02-14 | 2020-11-10 | Microsoft Technology Licensing, Llc | Mobile audio beamforming using sensor fusion |
US10897672B2 (en) * | 2019-03-18 | 2021-01-19 | Facebook, Inc. | Speaker beam-steering based on microphone array and depth camera assembly input |
EP3942842A1 (en) | 2019-03-21 | 2022-01-26 | Shure Acquisition Holdings, Inc. | Housings and associated design features for ceiling array microphones |
US11558693B2 (en) | 2019-03-21 | 2023-01-17 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality |
TW202044236A (zh) | 2019-03-21 | 2020-12-01 | 美商舒爾獲得控股公司 | 具有抑制功能的波束形成麥克風瓣之自動對焦、區域內自動對焦、及自動配置 |
EP3973716A1 (en) | 2019-05-23 | 2022-03-30 | Shure Acquisition Holdings, Inc. | Steerable speaker array, system, and method for the same |
JP2022535229A (ja) | 2019-05-31 | 2022-08-05 | シュアー アクイジッション ホールディングス インコーポレイテッド | 音声およびノイズアクティビティ検出と統合された低レイテンシオートミキサー |
US11227679B2 (en) | 2019-06-14 | 2022-01-18 | Nuance Communications, Inc. | Ambient clinical intelligence system and method |
US11216480B2 (en) | 2019-06-14 | 2022-01-04 | Nuance Communications, Inc. | System and method for querying data points from graph data structures |
US11531807B2 (en) | 2019-06-28 | 2022-12-20 | Nuance Communications, Inc. | System and method for customized text macros |
CN114467312A (zh) | 2019-08-23 | 2022-05-10 | 舒尔获得控股公司 | 具有改进方向性的二维麦克风阵列 |
US11670408B2 (en) | 2019-09-30 | 2023-06-06 | Nuance Communications, Inc. | System and method for review of automated clinical documentation |
US12028678B2 (en) | 2019-11-01 | 2024-07-02 | Shure Acquisition Holdings, Inc. | Proximity microphone |
CN113038070B (zh) * | 2019-12-25 | 2022-10-14 | 浙江宇视科技有限公司 | 一种设备调焦方法、装置和云平台 |
US11552611B2 (en) | 2020-02-07 | 2023-01-10 | Shure Acquisition Holdings, Inc. | System and method for automatic adjustment of reference gain |
WO2021243368A2 (en) | 2020-05-29 | 2021-12-02 | Shure Acquisition Holdings, Inc. | Transducer steering and configuration systems and methods using a local positioning system |
WO2022075035A1 (ja) * | 2020-10-05 | 2022-04-14 | 株式会社オーディオテクニカ | 音源定位装置、音源定位方法及びプログラム |
CN112351248B (zh) * | 2020-10-20 | 2023-05-30 | 杭州海康威视数字技术股份有限公司 | 一种关联图像数据和声音数据的处理方法 |
US11222103B1 (en) | 2020-10-29 | 2022-01-11 | Nuance Communications, Inc. | Ambient cooperative intelligence system and method |
TWI751866B (zh) * | 2020-12-29 | 2022-01-01 | 仁寶電腦工業股份有限公司 | 影音通訊系統及其控制方法 |
WO2022165007A1 (en) | 2021-01-28 | 2022-08-04 | Shure Acquisition Holdings, Inc. | Hybrid audio beamforming system |
US20240236562A9 (en) * | 2022-10-24 | 2024-07-11 | Cisco Technology, Inc. | Field of view based audio selection |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4843568A (en) | 1986-04-11 | 1989-06-27 | Krueger Myron W | Real time perception of and response to the actions of an unencumbered participant/user |
US4787051A (en) | 1986-05-16 | 1988-11-22 | Tektronix, Inc. | Inertial mouse system |
US5128671A (en) | 1990-04-12 | 1992-07-07 | Ltv Aerospace And Defense Company | Control device having multiple degrees of freedom |
US5388059A (en) | 1992-12-30 | 1995-02-07 | University Of Maryland | Computer vision system for accurate monitoring of object pose |
US5528265A (en) | 1994-07-18 | 1996-06-18 | Harrison; Simon J. | Orientation-operated cursor control device |
SE504846C2 (sv) | 1994-09-28 | 1997-05-12 | Jan G Faeger | Styrutrustning med ett rörligt styrorgan |
JP3522954B2 (ja) | 1996-03-15 | 2004-04-26 | 株式会社東芝 | マイクロホンアレイ入力型音声認識装置及び方法 |
US6144367A (en) | 1997-03-26 | 2000-11-07 | International Business Machines Corporation | Method and system for simultaneous operation of multiple handheld control devices in a data processing system |
US6720949B1 (en) | 1997-08-22 | 2004-04-13 | Timothy R. Pryor | Man machine interfaces and applications |
US6375572B1 (en) | 1999-10-04 | 2002-04-23 | Nintendo Co., Ltd. | Portable game apparatus with acceleration sensor and information storage medium storing a game progam |
US20020085097A1 (en) | 2000-12-22 | 2002-07-04 | Colmenarez Antonio J. | Computer vision-based wireless pointing system |
US6982697B2 (en) | 2002-02-07 | 2006-01-03 | Microsoft Corporation | System and process for selecting objects in a ubiquitous computing environment |
US8947347B2 (en) | 2003-08-27 | 2015-02-03 | Sony Computer Entertainment Inc. | Controlling actions in a video game unit |
US7783061B2 (en) | 2003-08-27 | 2010-08-24 | Sony Computer Entertainment Inc. | Methods and apparatus for the targeted sound detection |
US8797260B2 (en) | 2002-07-27 | 2014-08-05 | Sony Computer Entertainment Inc. | Inertially trackable hand-held controller |
US9474968B2 (en) | 2002-07-27 | 2016-10-25 | Sony Interactive Entertainment America Llc | Method and system for applying gearing effects to visual tracking |
US8686939B2 (en) | 2002-07-27 | 2014-04-01 | Sony Computer Entertainment Inc. | System, method, and apparatus for three-dimensional input control |
US8019121B2 (en) * | 2002-07-27 | 2011-09-13 | Sony Computer Entertainment Inc. | Method and system for processing intensity from input devices for interfacing with a computer program |
US7627139B2 (en) * | 2002-07-27 | 2009-12-01 | Sony Computer Entertainment Inc. | Computer image and audio processing of intensity and input devices for interfacing with a computer program |
US20060282873A1 (en) | 2002-07-27 | 2006-12-14 | Sony Computer Entertainment Inc. | Hand-held controller having detectable elements for tracking purposes |
US7760248B2 (en) * | 2002-07-27 | 2010-07-20 | Sony Computer Entertainment Inc. | Selective sound source listening in conjunction with computer interactive processing |
US7918733B2 (en) | 2002-07-27 | 2011-04-05 | Sony Computer Entertainment America Inc. | Multi-input game control mixer |
US8139793B2 (en) | 2003-08-27 | 2012-03-20 | Sony Computer Entertainment Inc. | Methods and apparatus for capturing audio signals based on a visual image |
US10086282B2 (en) | 2002-07-27 | 2018-10-02 | Sony Interactive Entertainment Inc. | Tracking device for use in obtaining information for controlling game program execution |
US20040212589A1 (en) | 2003-04-24 | 2004-10-28 | Hall Deirdre M. | System and method for fusing and displaying multiple degree of freedom positional input data from multiple input sources |
US7038661B2 (en) | 2003-06-13 | 2006-05-02 | Microsoft Corporation | Pointing device and cursor for use in intelligent computing environments |
US7874917B2 (en) | 2003-09-15 | 2011-01-25 | Sony Computer Entertainment Inc. | Methods and systems for enabling depth and direction detection when interfacing with a computer program |
US7489299B2 (en) | 2003-10-23 | 2009-02-10 | Hillcrest Laboratories, Inc. | User interface devices and methods employing accelerometers |
DE102004000043A1 (de) * | 2004-11-17 | 2006-05-24 | Siemens Ag | Verfahren zur selektiven Aufnahme eines Schallsignals |
US8310656B2 (en) | 2006-09-28 | 2012-11-13 | Sony Computer Entertainment America Llc | Mapping movements of a hand-held controller to the two-dimensional image plane of a display screen |
US8150063B2 (en) * | 2008-11-25 | 2012-04-03 | Apple Inc. | Stabilizing directional audio input from a moving microphone array |
-
2010
- 2010-12-16 US US12/969,896 patent/US8761412B2/en active Active
-
2011
- 2011-11-30 WO PCT/US2011/062657 patent/WO2012082379A1/en active Application Filing
- 2011-11-30 CN CN201180068553.5A patent/CN103404169B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US8761412B2 (en) | 2014-06-24 |
WO2012082379A1 (en) | 2012-06-21 |
US20120155703A1 (en) | 2012-06-21 |
CN103404169A (zh) | 2013-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103404169B (zh) | 聚焦麦克风阵列的方法及系统 | |
CN104010706B (zh) | 视频游戏的方向输入 | |
CN103559006B (zh) | 利用视线跟踪的自适应显示 | |
KR101489236B1 (ko) | 최소 사용자 입력을 가지는 추적시스템 보정 | |
JP5512804B2 (ja) | オブジェクトの位置及び向きを用いた追跡システムの較正 | |
CN102576257B (zh) | 基站移动检测和补偿 | |
JP4921550B2 (ja) | ゲームプレイ中にコンピュータ生成アバターに感情的特徴を与える方法 | |
EP2359223B1 (en) | Correcting angle error in a tracking system | |
JP6001542B2 (ja) | 携帯デバイスによるインタラクティブアプリケーションのビデオキャプチャを可能とするためのシステム | |
US8393964B2 (en) | Base station for position location | |
KR20180107782A (ko) | 가상현실 헬멧 및 그 사용 방법 | |
CN112578565A (zh) | 根据眼睛追踪的实时透镜像差校正 | |
JP2014149836A (ja) | インタラクティブにユーザ制御されたアバターアニメーション | |
CN104162274A (zh) | 利用图像分析和超声波通信对控制器三维定位的确定 | |
CN104221032A (zh) | 用于实时识别多个用户的手指印象的设备、系统和方法 | |
US9774989B2 (en) | Position and rotation of a portable device relative to a television screen | |
EP2557482A2 (en) | Input device, system and method | |
JP2020515336A (ja) | ズーム装置及び関連する方法 | |
US20190325244A1 (en) | System and method to enable creative playing on a computing device | |
KR20230007874A (ko) | 인공 신경망을 이용하여 비디오 시퀀스의 유형을 결정하기 위한 전자 장치, 방법, 및 컴퓨터 판독가능 저장 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |