CN101132839A - 结合计算机交互处理的选择性声源监听 - Google Patents

结合计算机交互处理的选择性声源监听 Download PDF

Info

Publication number
CN101132839A
CN101132839A CNA2006800064384A CN200680006438A CN101132839A CN 101132839 A CN101132839 A CN 101132839A CN A2006800064384 A CNA2006800064384 A CN A2006800064384A CN 200680006438 A CN200680006438 A CN 200680006438A CN 101132839 A CN101132839 A CN 101132839A
Authority
CN
China
Prior art keywords
sound
computer program
sound source
image
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006800064384A
Other languages
English (en)
Other versions
CN101132839B (zh
Inventor
R·L·马克斯
毛夏东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Computer Entertainment Inc filed Critical Sony Computer Entertainment Inc
Publication of CN101132839A publication Critical patent/CN101132839A/zh
Application granted granted Critical
Publication of CN101132839B publication Critical patent/CN101132839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/213Input arrangements for video game devices characterised by their sensors, purposes or types comprising photodetecting means, e.g. cameras, photodiodes or infrared cells
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1081Input via voice recognition
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1087Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals comprising photodetecting means, e.g. a camera
    • A63F2300/1093Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals comprising photodetecting means, e.g. a camera using visible light
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing
    • A63F2300/6072Methods for processing data by generating or executing the game program for sound processing of an input signal, e.g. pitch and rhythm extraction, voice recognition

Abstract

本发明提供一种在与计算机程序交互期间捕捉图像和声音的方法及设备。该设备包括一图像捕捉单元,被配置为捕捉一个或多个图像帧。还提供一声音捕捉单元。该声音捕捉单元被配置为识别一个或多个声源。该声音捕捉单元产生能够被解析以确定一个聚焦区域的数据,在此聚焦区域可处理声音以至基本上排除该聚焦区域之外的声音。以此方式,从聚焦区域捕捉和处理的声音被用于与计算机程序的交互。

Description

结合计算机交互处理的选择性声源监听
背景技术
近年来,可看到视频游戏工业已有许多变化,随着计算能力的提高,视频游戏的开发者们同样制作出能够利用计算能力的增长的游戏软件。为此,视频游戏的开发者们已经开发出结合复杂的运算和数学操作的游戏来产生一种非常真实的游戏体验。
一些示例性的游戏平台,如索尼Playstation或索尼Playstation2(PS2),都以游戏控制台的形式销售。众所周知,游戏控制台被设计成与一个监视器(通常是一台电视机)相连接,并能够通过手持式控制器与用户交互。游戏控制台被设计成具有专门的处理硬件,包括一个中央处理器,一个用以处理密集图形运算的图形合成器,一个用以进行几何变换的矢量单元,以及其它配合的硬件,固件和软件。游戏控制台还被进一步设计成具有一用以接收游戏光盘的光盘托架,以通过游戏控制台进行本地游戏。在线游戏也是可能的,用户可以通过因特网交互地与其它用户协同或作为对手进行游戏。
由于游戏的复杂性不断激起玩家的兴趣,游戏和硬件制造商不断改进以提供更多的交互性。但事实上,近年来用户与游戏交互的方式并没有很大地改变。
考虑到前述问题,现在需要一种方法与系统,以使得用户与游戏之间可以进行更高级的交互。
发明内容
广义地说,本发明通过提供一促进与计算机程序交互的设备和方法满足了这些需求。在一实施例中,计算机程序是一游戏程序,但是并不仅限于此,该设备和方法可以适用于任何可以接受声音输入以触发控制、输入或进行通信的计算机环境。更具体地,如果声音被用于触发控制或输入,本发明的这些实施例将能够对特定声源进行过滤的输入,并且该过滤的输入被配置为忽略或不理睬那些不关注的声源。在视频游戏环境中,依靠选定的声源,视频游戏能够在处理过关注的声源后以特定的响应应答,而不存在其它可能无关的声音带来的失真或噪音。通常地,一个游戏环境将暴露在许多背景噪声中,如音乐、其他人和物体的移动。一旦这些不关注的声音被充分地滤除,则计算机程序能够更好地应答关注的声音。该响应可以是任何形式,如一个命令、一个动作的起始、一个选择、游戏状况或状态的一种变化、功能(feature)的解锁等等。
在一实施例中,提供了一个在与计算机程序的交互中捕捉图像和声音的设备。该设备包括一被配置为捕捉一个或多个图像帧的图像捕捉单元。还包括一声音捕捉单元。该声音捕捉单元被配置为识别一个或多个声源。该声音捕捉单元产生可被解析以确定一个聚焦区域的数据,在此聚焦区域可处理声音以至基本上排除该聚焦区域之外的声音。以此方式,从聚焦区域捕捉和处理的声音被用于与计算机程序的交互。
在另一实施例中,揭示了一种在与计算机程序交互期间的选择性声源监听方法。该方法包括以两个或更多声源捕捉麦克风从一个或多个声源接收输入。然后,该方法包括确定每个声源的延迟路径并对于接收到的每个输入识别一个或多个声源中每个声源的方向。该方法然后包括滤除不在所识别的聚焦区域方向上的声源。该聚焦区域被配置成与计算机程序交互提供声源。
在另一实施例中,提供了一个游戏系统。该游戏系统包括一个图像-声音捕捉设备,该设备被配置为与能够执行交互式计算机游戏的计算系统相接口。该图像捕捉设备包括能够被置于一定位置以从一聚焦区域捕捉视频的视频捕捉硬件。提供一个麦克风阵列以从一个或多个声源捕捉声音。每个声源都被识别并与一个相对于图像-声音捕捉设备的方向相关联。与视频捕捉硬件相关的聚焦区域被配置为用于识别出声源中的在聚焦区域附近方向上的一个声源。
总的来说,交互声音识别和追踪可应用在与任何计算设备的任何计算机程序的接口上。一旦声源被识别,该声源的内容可以被进一步处理,以触发、驱动、指导或控制由一计算机程序所生成的角色或物体。
通过下面结合附图、以例子的方式示出本发明的原则的详细描述,本发明的其它方面和优点将变得更加清楚。
附图说明
通过与附图相结合的下列描述,本发明及其更多的优点可以被更好地理解。
图1示出了依照本发明一个实施例的一个游戏环境,在该环境中可以执行一个视频游戏程序以与一个或多个用户进行交互。
图2示出了依照本发明一个实施例的示例性的图像-声音捕捉装置的三维图示。
图3A和3B示出了依照本发明一个实施例的不同麦克风处的声路处理以及用于输出选出的声源的逻辑,所述不同麦克风被设计为接收输入。
图4示出了依照本发明一个实施例的一个示例性的计算系统,该计算系统与一个图像-声音捕捉装置相接口,以处理输入声源。
图5示出了依照本发明一个实施例的一个示例,该示例中,多个麦克风被用于增加对特定声源的方向识别的精确性。
图6示出了依照本发明一个实施例的一个示例,该示例中,使用位于不同平面上的麦克风在一个特定的空间体积内识别声音。
图7和8示出了依照本发明一个实施例的示例性的方法步骤,可以在声源识别以及非聚焦声源的排除中执行这些步骤。
具体实施方式
本发明揭示了便于识别特定声源并在声音被用作与计算机程序交互的工具时滤除不需要的声源的方法和设备。
在以下的描述中,大量的具体细节被阐明以为本发明提供一个通彻的理解。然而,显而易见地是,对于本领域技术人员来说,本发明也可以在缺少其中一些或全部的具体细节的情况下实施。在其它例子中,没有详述公知的处理步骤以免模糊本发明。
依照本发明的一个实施例,图1示出了一个游戏环境100,该游戏环境中可以执行一个视频游戏程序以与一个或多个用户交互。如图所示,玩家102出现在包含一个显示器110的监视器108前。该监视器108与一个计算系统104相互连接。该计算系统可以是一个标准计算机系统,一个游戏控制台或一个便携式计算机系统。在一个具体例子中,游戏控制台可以是索尼计算机娱乐公司(Sony Computer Entertainment Inc.),微软(Microsoft)或其它制造商制造的产品,但本发明不限于任何品牌。
计算系统104被示出与一个图像-声音捕捉装置106相互连接。该图像-声音捕捉装置106包括一个声音捕捉单元106a和一个图像捕捉单元106b。玩家102被示出正与显示器110上的一个游戏人物112交互地通信。在正在执行的视频游戏中,其输入至少部分地由玩家102经由图像捕捉单元106b和声音捕捉单元106a提供。如图所示,玩家102可以移动他的手以在显示110上选择交互图标114。一旦被图像捕捉单元106b捕捉到,一个玩家102′的半透明图像将被投射到显示器110上。如此,玩家102知道将手移动到哪里以进行图标的选择或与游戏人物112接口。捕捉这些运动和交互的技术可以不同,但英国专利申请GB0304024.3(PCT/GB2004/000693)和GB0304022.7(PCT/GB2004/000703)中描述了示例性的技术,且二者均提交于2003年2月21日,二者均被引用包括进本申请中。
在示出的例子中,交互图标114是一个允许玩家选择“挥动”的图标以使游戏人物112挥动手中的物体。另外,玩家102可以提供语音命令,该命令能够被声音捕捉单元106a捕捉,然后由计算系统104处理以为正在执行的视频游戏提供交互性。如图所示,声源116a是语音命令“跳!”。然后声源116a将被声音捕捉单元106a捕捉并由计算系统104处理,然后促使游戏人物112跳起。可以使用语音识别以进行语音命令的识别。作为选择,玩家102可以与接入因特网或网络的远程用户进行通讯,但这些远程用户同样直接地或部分地卷入游戏交互中。
依照本发明的一个实施例,声音捕捉单元106a被配置为包含至少两个麦克风,该麦克风使得计算系统104能够选出从特定方向传来的声音。通过使计算系统104能够滤除对游戏进行不重要(或非聚焦点)的方向,当玩家102发出明确的命令时游戏环境100中的杂音就不会干扰或扰乱游戏的执行。例如,游戏玩家102可能轻轻跺脚,并引发一个敲击噪音,该敲击噪音是一个非语言的声音117。这种声音可以被声音捕捉单元106a捕捉,但随后被滤除,这是由于从玩家102脚部传来的声音不在该视频游戏的聚焦区域内。
就像下文中将描述的一样,聚焦区域最好由活动的图像区域标识,该活动的图像区域是图像捕捉单元106b的聚焦点。在另一种方式中,在初始化阶段后聚焦区域可以手动地从提供给用户的区域选项中选择。继续图1的例子,一个游戏观察者103可以产生一个声源116b,该声源可能在交互游戏进行期间扰乱计算系统的处理。然而,游戏观察者103不在图像捕提单元106b的活动的图像区域内,因此从游戏观察者103方向传来的声音将被滤除。这样,就像声源116a一样,计算系统104不会错误地将来自声源116b的命令与来自于玩家102的声源的命令混淆。
图像-声音捕捉装置106包括一个图像捕捉单元106b和声音捕捉单元106a。该图像-声音捕捉装置106最好能够数字化地捕捉图像帧并将这些图像帧传输给计算系统104以进一步处理。一个图像捕捉单元106b的例子是网络摄像机,该摄像机通常被使用于期望捕捉视频图像并将其数字化地传输给一个计算装置以便随后的存储或通过网络(例如因特网)通信的时候。其它类型的图像捕捉装置也可以使用,不管是模拟的还是数字的,只要图像数据被数字化处理以使其能够识别和过滤。在一个优选实施例中,在输入数据被接收后,数字化处理以进行过滤的过程是用软件实现的。声音捕捉单元106a被图示为包括一对麦克风(麦克风1和麦克风2)。该对麦克风是标准麦克风,可以与外壳集成为一体以组成图像-声音捕捉装置106。
图3A表示声音捕捉单元106a面临来自于声音A和声音B的声源116。如图所示,声音A射出可闻声并沿着声路201a和201b被麦克风1和麦克风2探测到。声音B沿着声路202a和202b射向麦克风1和麦克风2。如图所示,声音A的声路有不同的长度,因而在比较声路202a和202b时提供了一个相对的延迟。然后,来自于声音A和声音B中每一个的声音将使用一个标准三角剖分算法(triangulation algorithm)进行处理,以使方向选择在(如图3B所示的)方框216中出现。来自于麦克风1和麦克风2的声音都将被缓存于缓存器1和2(210a、210b),并通过延迟线(212a、212b)传输。在一个实施例中,缓存和延时处理可以由软件控制,但也可定制设计硬件以处理这些操作。基于三角剖分算法,方向选择126将触发识别和选择声源116中的一个。
来自于麦克风1和麦克风2中每一个的声音将在方框214中被累加,然后将被作为选择的声源输出被输出。如此,不是来自于活动图像区域方向的声音被滤除,以使得那些声源不会扰乱计算系统104的处理或者扰乱与其它用户的通信,而这些用户可通过网络或因特网交互地进行一个视频游戏。
图4示出了依照本发明一个实施例的一个计算系统250,该计算系统250可以被用于与图像-声音捕捉装置106协同工作。该计算系统250包括一个处理器252和存储器256。总线254将处理器和存储器256与图像-声音捕捉装置106相互连接。存储器256包括至少部分的交互程序258,并且还包括选择性声源监听逻辑或代码260以处理接收到的声源数据。基于图像捕捉单元106b确定的聚焦区域,在聚焦区域之外的声源将通过(例如:由处理器和至少部分地存储于存储器256)所执行的选择性声源监听逻辑260选择性地过滤。该计算系统被图示为其最简单的形式,但需强调的事实是,只要硬件可以处理指令以实现输入声源的处理并因而能够进行选择性监听,任何硬件配置都可以被使用。
计算系统250同样被示出通过总线与显示器110相互连接。在这个例子中,聚焦区域被朝向声源B聚焦的图像捕捉单元所识别。当声音被声音捕捉单元106a捕捉并被传输至计算系统250时,来自于其它声源(例如声源A)的声音,将基本上被选择性声源监听逻辑260滤除。
在一个具体例子中,一个玩家可以与另一个用户参与到因特网或网络视频游戏竞赛中,网络中每个用户的主要声频体验将由扬声器的方式提供。扬声器可以是计算系统的一部分或是监视器108的一部分。因此,假定本地扬声器产生如图4所示的声源A。为了使本地扬声器作为声源A产生的声音不被反馈给该竞赛用户,选择性声源监听逻辑260将滤除声源A的声音以阻止竞赛用户的声音或话语的反馈被提供给他或她自己。通过提供这种过滤,有可能在与视频游戏接口时通过网络进行交互通信,同时有利地避免这个过程期间的有害反馈。
图5示出了一个例子,在此图像-声音捕捉装置106包括至少四个麦克风(麦克风1至麦克风4)。因此,声音捕捉单元106a能够以更好的粒度做三角剖分运算以识别出声源116(A和B)的位置。也就是说,通过提供额外的麦克风,有可能更准确地确定声源的位置并因而排除和滤除不关注的或可能对游戏或对与计算系统进行的交互有害的声源。如图5所示,声源116(B)是由图像捕捉单元106b所识别的感兴趣的声源。继续图5的例子,图6标识出了声源B如何被识别为一空间体积(spatial volume)。
声源B所在的空间体积将限定聚焦体积274。通过识别出一个聚焦体积(volume offocus),有可能排除或滤除不在一个具体空间体积内(即,那些正好不在一个方向上的)的噪声。为了便于聚焦体积274的选择,图像-声音捕捉装置106最好包括至少四个麦克风。至少其中一个麦克风与其它三个麦克风在不同的平面上。在图像-声音捕捉装置106上,通过保持四个麦克风中的一个在平面271上而剩余的在平面270上,有可能限定一个空间体积。
因此,来自于附近其他人(如图中示出的276a和276b)的噪声将被滤除,这是因为它们不在被聚焦体积274定义的空间体积内。另外,可能由刚好位于空间体积外的如图所示的扬声器276c产生的噪声,也将因其落于空间体积之外而被滤除。
图7示出了根据本发明一个实施例的流程图。该方法始于步骤302,以两个或更多的声音捕捉麦克风接收来自于一个或多个声源的输入。在一个例子中,两个或更多的声音捕捉麦克风被集成在图像-声音捕捉装置106中。作为选择,两个或更多的声音捕捉麦克风可以是与图像捕捉单元106b接口的第二模块/外壳的一部分。作为选择,声音捕捉单元106a可以包括任何数量的声音捕捉麦克风,且声音捕捉麦克风被置于特殊的位置,该特殊的位置被设计为能够捕捉与计算系统接口的用户的声音。
该方法进入步骤304,在此确定每一个声源的延迟路径。图3A中的声路201和202限定了示例性的延迟路径。众所周知,延迟路径定义了声波从声源传播到被设置以捕捉该声音的特定麦克风所需的时间。基于声音从特定声源116传播的延迟,使用标准三角剖分算法,麦克风可以确定延迟是多少以及声音发出的大概位置。
该方法然后继续接下来的步骤306,在此对于每个接收到的输入识别出一个或多个声源的方向。即识别出源自声源116的声音相对于图像-声音捕捉装置(包括声音捕捉单元106a)位置的方向。基于识别出的方向,不在所识别的一个聚焦区域(或体积)的方向上的声源都在步骤308中被滤除。通过滤除不在聚焦区域附近方向上的声源,有可能使用未被滤除的声源与计算机程序进行交互,如步骤310所示。
例如,交互程序可以是一视频游戏,该游戏中用户可以与视频游戏中的角色进行交互通信,或者与正在和主要玩家对抗的玩家进行交互通信。对抗玩家既可以是本地的也可以是远程的,并通过网络(如因特网)与主要用户进行通信。另外,视频游戏也可以在一个用户组中的多个用户之间进行,该用户组是为用户在特定的与游戏有关的竞赛中交互地挑战彼此的技能而设计的。
图8示出了一个流程图,在此将图像-声音捕捉装置的操作320与对所接收的输入进行的软件的操作340分开示出。如此,在步骤302中,一旦以两个或更多的声音捕捉麦克风接收到来自于一个或多个声源的输入,该方法进入步骤304,在此以软件形式确定每个声源的延迟路径。如上所述,基于延迟路径,在步骤306中,对于每个接收到的输入,识别出一个或多个声源中的每个声源的方向。
此时,该方法进入步骤312,在此确定所识别的视频捕捉附近的方向。例如,将视频捕捉针对如图1所示的活动图像区域。这样,视频捕捉附近的区域将在这一活动图像区域(或体积)之内,并且将确定与在此图像活动区域之内或附近的声源相关的任意一个方向。基于这个确定,该方法进入步骤314,在此不在视频捕捉附近的方向(或体积)被滤除。因此,可能扰乱主要玩家玩视频游戏的干扰、噪声和其它无关的输入均在游戏过程中利用软件进行处理而被滤除。
从而,该主要用户可以与视频游戏交互,与正在使用该视频游戏的游戏中其它用户交互,或者与网络上的可能对同一游戏有兴趣并为之进行登陆或进行相关业务的其他用户进行通信。如此,这样的视频游戏通信、交互和控制将不被外部的噪声和/或不打算交互通信或参与到一个特定游戏或交互程序中的旁观者所干扰。
应当理解,于此描述的实施例同样可以应用于在线游戏应用程序。即,上面描述的实施例可以出现在服务器中,该服务器通过分布式网络,如因特网,向多个用户传送视频信号,使得玩家能够在远端嘈杂的位置相互通信。还应当理解,于此描述的实施例既可以硬件实现也可以软件实现。即,以上讨论的功能性描述可以综合到一个具有一定逻辑的微芯片,该逻辑被配置为对与噪声消除方案相关联的每个模块执行功能性任务。
同样,声源的选择性过滤也可以有其它应用,如电话。在电话使用环境中,通常有一个主要人物(例如打电话者),他期望与一个第三方(例如接电话者)交谈。然而,在通信期间,附近可能存在其它说话或制造噪音的人。使电话针对主用户(例如根据话筒的方向),可以使得来自于主用户嘴巴的声音成为聚焦区域,并因而能够选择只听主用户声音。因此,这种选择性监听将使得能够基本上滤除与主用户无关的话语和噪音,并且接收方因而能够从使用电话的主用户处接收一个更加清晰的通信。
其它技术也可以包括其它一些电子设备,这些电子装备可以受益于接收声音作为用于控制或通信的输入。例如,一个用户可以使用语音命令控制汽车的设置,同时避免其它路过者干扰这些命令。其它应用可以包括诸如浏览应用软件、文件制作或通信等应用的计算机控制。通过使能这个过滤,有可能更有效地发出不被环境声音干扰的语音或声音命令。同样地,使用任何电子设备均可。
进一步地,本发明的实施例具有广泛的一系列的应用,并且权利要求的范围应被解读为包括任何受益于这些实施例的任何应用。
例如,在一个类似应用中,可能使用声分析滤除声源。如果声分析被使用,可能使用少达一个的麦克风。被单个麦克风捕捉的声音可以被数字解析(用软件或硬件)以确定哪个语音或声音是所关注的。在一些环境中,如游戏,主用户可能可以将他或她的语音录制一遍以训练系统识别特定的语音。如此,将便于排除其它语音或声音。因此,识别方向并不是必需的,因为过滤可以基于声音的音调和/或频率进行。
当考虑方向和体积时,上述所有与声音过滤有关的优点是同样可以适用的。
考虑到上述实施例,应当理解本发明可以使用涉及计算机系统存储数据的多种计算机实施的步骤。这些步骤包括需要对物理量进行物理操作的步骤。通常,虽然不是必须的,这些物理量以电或磁信号的形式存在,可以被存储、传输、组合、比较以及进行其它操作。进一步地,所进行的操作经常被(作为术语)称为诸如产生、识别、确定或比较等。
上述发明可能以其它计算机系统配置实施,包括手持式装置、微处理器系统、基于微处理器的或可编程的消费电子产品、小型计算机、大型计算机以及类似装置。本发明也可以实施于分布式计算环境中,在该环境中,任务由通过通信网络连接的远程处理装置执行。
本发明还可以作为计算机可读代码在一个计算机可读媒介中实现。该计算机可读媒介可以是任何能够存储可以被计算机系统随后阅读的数据的数据存储装置,包括电磁载波。示例性的计算机可读媒介包括硬盘驱动器、网络存储器(NAS)、只读存储器、随机存储器、CD-ROM、CD-R、CD-RW、磁带和其它光学和非光学数据存储装置。计算机可读媒介也可以分布于一个网络耦合的计算机系统,以使计算机可读代码以分布式方式被存储和执行。
虽然为清晰理解的目的对本发明的一些细节进行了详细描述,但显然,可以在后附的权利要求的范围内进行一些变化和修改。因此,本发明的实施例可以被认为是示意性的而不是限制性的,并且本发明不被于此给出的细节所限制,而是可以在后附的权利要求的范围和其等同物内进行更改。

Claims (26)

1.一种在与计算机程序交互期间捕捉图像和声音的设备,包括:
被配置为捕捉一个或多个图像帧的图像捕捉单元;
声音捕捉单元,该声音捕捉单元被配置为识别一个或多个声源,该声音捕捉单元产生能够被解析以确定一个聚焦区域的数据;在所述聚焦区域中,处理声音以基本上排除该聚焦区域之外的声音,为该聚焦区域捕捉并处理的声音被用于与该计算机程序的交互通信。
2.根据权利要求1所述的在与计算机程序交互期间捕捉图像和声音的设备,其中所述声音捕捉单元包括一麦克风阵列,该麦克风阵列被配置为接收来自一个或多个声源的声音,该一个或多个声源的声音限定到达每个麦克风的声音路径。
3.根据权利要求2所述的在与计算机程序交互期间捕捉图像和声音的设备,其中所述声音路径包括特定延迟,该延迟使得能够计算出相对于所述捕捉图像和声音的设备的一个或多个声源中的每一个的方向。
4.根据权利要求1所述的在与计算机程序交互期间捕捉图像和声音的设备,该设备进一步包括:
计算系统,用于与所述捕捉图像和声音的设备相接口,该计算系统包括:
处理器,以及
存储器,该存储器被配置为存储至少部分计算机程序和选择性声源监听代码,该选择性声源监听代码能够识别所述一个或多个声源中的哪一个为聚焦区域。
5.根据权利要求1所述的在与计算机程序交互期间捕捉图像和声音的设备,其中所述声音捕捉单元包括至少四个麦克风,并且四个麦克风中的一个麦克风与其它麦克风不在同一平面上。
6.根据权利要求5所述的在与计算机程序交互期间捕捉图像和声音的设备,其中所述四个麦克风限定一个空间体积。
7.根据权利要求6所述的在与计算机程序交互期间捕捉图像和声音的设备,其中所述空间体积被限定为与计算机程序交互期间进行监听的一个聚焦体积。
8.根据权利要求7所述的在与计算机程序交互期间捕捉图像和声音的设备,其中所述计算机程序是游戏程序。
9.根据权利要求1所述的在与计算机程序交互期间捕捉图像和声音的设备,其中所述计算机程序是游戏程序。
10.根据权利要求9所述的在与计算机程序交互期间捕捉图像和声音的设备,其中所述图像捕捉单元是摄像机,并且所述声音捕捉单元由两个或更多个麦克风组成的阵列所限定。
11.在与计算机程序交互期间的选择性声源监听方法,包括:
以两个或更多的声源捕捉麦克风接收来自于一个或多个声源的输入;
确定来自于每个声源的延迟路径;
对于接收到的每个输入,识别一个或多个声源中每个声源的方向;以及
滤除不在所识别的一个聚焦区域的方向上的声源,所述聚焦区域为与计算机程序的交互提供声源。
12.根据权利要求11所述的在与计算机程序交互期间的选择性声源监听方法,其中滤除步骤接收在图像捕捉单元解析之后所处理的输入数据,所述图像捕捉单元被定向设置,以为计算机程序接收图像输入。
13.根据权利要求11所述的在与计算机程序交互期间的选择性声源监听方法,其中所述计算机程序是一个游戏,并且该游戏接收来自于图像数据和声音数据的交互输入,所述声音数据来自于所述聚焦区域的声源。
14.根据权利要求11所述的在与计算机程序交互期间的选择性声源监听方法,其中所述两个或更多的声音捕捉麦克风包括至少4个麦克风,并且四个麦克风中的至少一个麦克风与其它麦克风在不同的平面上。
15.根据权利要求14所述的在与计算机程序交互期间的选择性声源监听方法,其中所述识别所述一个或多个声源的每个接收到的输入的方向包括处理一个三角剖分算法,该三角剖分算法限定相对于一个位置的方向,在所述位置中,以两个或更多的声源捕捉麦克风接收来自于所述一个或多个声源的输入。
16.根据权利要求15所述的在与计算机程序交互期间的选择性声源监听方法,该方法进一步包括:
缓存从一个或多个声源的接收到的输入,该一个或多个声源与所述两个或更多声源捕捉麦克风相关;以及
对所接收的缓存的输入进行延迟处理;
所述滤除,包括,
选择声源中的一个,该选择的声源输出是来自于每个声源捕捉麦克风的声音的叠加。
17.一个游戏系统,包括:
一个图像-声音捕捉装置,该图像-声音捕捉装置被配置为与能够执行交互计算机游戏的计算系统相接口,所述图像捕捉装置包括,
视频捕捉硬件,该视频捕捉硬件能够被置于捕捉来自于一个聚焦区域的视频的位置,以及
一个麦克风阵列,该麦克风阵列捕捉来自于一个或多个声源的声音,每个声源均被识别并与相对于图像一声音捕捉装置的一个方向相关联,与视频捕捉硬件相关的所述聚焦区域被配置为用于识别出位于聚焦区域附近的方向的一个声源。
18.根据权利要求17所述的游戏系统,其中所述视频捕捉硬件接收视频数据以使得能够与计算机游戏中的角色交互。
19.根据权利要求17所述的游戏系统,其中在所述聚焦区域附近的所述声源使得能够与计算机游戏交互或与其他游戏用户语音通信。
20.根据权利要求19所述的游戏系统,其中在所述聚焦区域外的声源被滤除于与计算机游戏的交互之外。
21.一种在与计算机程序交互期间捕捉声音的设备,包括:
声音捕捉单元,用于从一个或多个声源捕捉声音;
处理器和存储器,用于处理和接收声音,所述处理器被配置为执行指令以将声源中的一个声源识别为与一个聚焦区域相关联,来自于被识别出的所述声源的声音被处理以使得能够与计算机程序交互输入。
22.根据权利要求21所述的在与计算机程序交互期间捕捉声音的设备,其中识别出一个声源的所述指令使用三角剖分以识别出每个声源的方向。
23.根据权利要求21所述的在与计算机程序交互期间捕捉声音的设备,其中识别出一个声源的所述指令使用声音频率以识别每个声源。
24.根据权利要求21所述的在与计算机程序交互期间捕捉声音的设备,其中所述交互输入是与计算机程序的通信或与第三方的通信。
25.根据权利要求21所述的在与计算机程序交互期间捕捉声音的设备,其中所述输入被用于与计算机游戏角色相接口的交互输入。
26.根据权利要求21所述的在与计算机程序交互中捕捉声音的设备,其中所述交互输入与电子设备接口。
CN2006800064384A 2005-05-05 2006-04-28 结合计算机交互处理的选择性声源监听 Active CN101132839B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US67841305P 2005-05-05 2005-05-05
US60/678,413 2005-05-05
PCT/US2006/016670 WO2006121681A1 (en) 2005-05-05 2006-04-28 Selective sound source listening in conjunction with computer interactive processing

Publications (2)

Publication Number Publication Date
CN101132839A true CN101132839A (zh) 2008-02-27
CN101132839B CN101132839B (zh) 2011-09-07

Family

ID=36721197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800064384A Active CN101132839B (zh) 2005-05-05 2006-04-28 结合计算机交互处理的选择性声源监听

Country Status (6)

Country Link
EP (1) EP1877149A1 (zh)
JP (1) JP5339900B2 (zh)
KR (1) KR100985694B1 (zh)
CN (1) CN101132839B (zh)
TW (1) TWI308080B (zh)
WO (1) WO2006121681A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819758B (zh) * 2009-12-22 2013-01-16 中兴通讯股份有限公司 一种声音控制屏幕显示的系统及实现方法
CN103974752A (zh) * 2011-12-19 2014-08-06 英派尔科技开发有限公司 用于基于姿势的游戏的暂停和重新开始方案
CN104054039A (zh) * 2012-01-12 2014-09-17 高通股份有限公司 具有声音和几何分析的扩增现实
CN104422922A (zh) * 2013-08-19 2015-03-18 中兴通讯股份有限公司 一种移动终端实现声源定位的方法及装置
CN104679471A (zh) * 2013-12-03 2015-06-03 联想(新加坡)私人有限公司 用于检测可听输入中的中止的装置、设备及方法
US9196238B2 (en) 2009-12-24 2015-11-24 Nokia Technologies Oy Audio processing based on changed position or orientation of a portable mobile electronic apparatus
CN106067301A (zh) * 2016-05-26 2016-11-02 浪潮(苏州)金融技术服务有限公司 一种使用多维化技术进行回声降噪的方法
CN107886965A (zh) * 2017-11-28 2018-04-06 游密科技(深圳)有限公司 游戏背景音的回声消除方法
CN104508597B (zh) * 2012-07-26 2018-10-16 高通股份有限公司 用于控制扩增实境的方法及设备
CN109168075A (zh) * 2018-10-30 2019-01-08 上海与德科技有限公司 一种视频信息传输方法、系统、服务器
CN109307856A (zh) * 2017-07-27 2019-02-05 深圳市冠旭电子股份有限公司 一种机器人空间定位的交互方法及装置
CN109479172A (zh) * 2016-04-21 2019-03-15 惠普发展公司,有限责任合伙企业 电子设备麦克风监听模式
CN110602424A (zh) * 2019-08-28 2019-12-20 维沃移动通信有限公司 视频处理方法及电子设备

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8947347B2 (en) 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US7783061B2 (en) 2003-08-27 2010-08-24 Sony Computer Entertainment Inc. Methods and apparatus for the targeted sound detection
US7809145B2 (en) 2006-05-04 2010-10-05 Sony Computer Entertainment Inc. Ultra small microphone array
US8073157B2 (en) 2003-08-27 2011-12-06 Sony Computer Entertainment Inc. Methods and apparatus for targeted sound detection and characterization
US8139793B2 (en) 2003-08-27 2012-03-20 Sony Computer Entertainment Inc. Methods and apparatus for capturing audio signals based on a visual image
US7803050B2 (en) 2002-07-27 2010-09-28 Sony Computer Entertainment Inc. Tracking device with sound emitter for use in obtaining information for controlling game program execution
US9174119B2 (en) 2002-07-27 2015-11-03 Sony Computer Entertainement America, LLC Controller for providing inputs to control execution of a program when inputs are combined
US8323106B2 (en) 2008-05-30 2012-12-04 Sony Computer Entertainment America Llc Determination of controller three-dimensional location using image analysis and ultrasonic communication
CA2581982C (en) 2004-09-27 2013-06-18 Nielsen Media Research, Inc. Methods and apparatus for using location information to manage spillover in an audience monitoring system
EP1880866A1 (en) 2006-07-19 2008-01-23 Sicpa Holding S.A. Oriented image coating on transparent substrate
WO2009021124A2 (en) * 2007-08-07 2009-02-12 Dna Digital Media Group System and method for a motion sensing amusement device
TWI404967B (zh) * 2007-10-19 2013-08-11 Chi Mei Comm Systems Inc 聲源定位系統及方法
US8953029B2 (en) * 2009-05-08 2015-02-10 Sony Computer Entertainment America Llc Portable device interaction via motion sensitive controller
US8855101B2 (en) 2010-03-09 2014-10-07 The Nielsen Company (Us), Llc Methods, systems, and apparatus to synchronize actions of audio source monitors
US8885842B2 (en) 2010-12-14 2014-11-11 The Nielsen Company (Us), Llc Methods and apparatus to determine locations of audience members
US9021516B2 (en) 2013-03-01 2015-04-28 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by measuring a crest factor
US9118960B2 (en) 2013-03-08 2015-08-25 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by detecting signal distortion
US9191704B2 (en) 2013-03-14 2015-11-17 The Nielsen Company (Us), Llc Methods and systems for reducing crediting errors due to spillover using audio codes and/or signatures
US9197930B2 (en) 2013-03-15 2015-11-24 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover in an audience monitoring system
US9247273B2 (en) 2013-06-25 2016-01-26 The Nielsen Company (Us), Llc Methods and apparatus to characterize households with media meter data
US9426525B2 (en) 2013-12-31 2016-08-23 The Nielsen Company (Us), Llc. Methods and apparatus to count people in an audience
US9680583B2 (en) 2015-03-30 2017-06-13 The Nielsen Company (Us), Llc Methods and apparatus to report reference media data to multiple data collection facilities
US9924224B2 (en) 2015-04-03 2018-03-20 The Nielsen Company (Us), Llc Methods and apparatus to determine a state of a media presentation device
US9848222B2 (en) 2015-07-15 2017-12-19 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07218614A (ja) * 1994-01-31 1995-08-18 Suzuki Motor Corp 音源位置算出方法およびその装置
US5993314A (en) 1997-02-10 1999-11-30 Stadium Games, Ltd. Method and apparatus for interactive audience participation by audio command
US6720949B1 (en) * 1997-08-22 2004-04-13 Timothy R. Pryor Man machine interfaces and applications
JPH11331827A (ja) * 1998-05-12 1999-11-30 Fujitsu Ltd テレビカメラ装置
JP2000163178A (ja) * 1998-11-26 2000-06-16 Hitachi Ltd 仮想キャラクタとのインタラクション装置、及び仮想キャラクタの映像を生成するプログラムを記憶した記憶媒体
IL134979A (en) * 2000-03-09 2004-02-19 Be4 Ltd A system and method for optimizing three-dimensional hearing
JP4815661B2 (ja) * 2000-08-24 2011-11-16 ソニー株式会社 信号処理装置及び信号処理方法
JP4868671B2 (ja) * 2001-09-27 2012-02-01 中部電力株式会社 音源探査システム
US7613310B2 (en) * 2003-08-27 2009-11-03 Sony Computer Entertainment Inc. Audio input system

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819758B (zh) * 2009-12-22 2013-01-16 中兴通讯股份有限公司 一种声音控制屏幕显示的系统及实现方法
CN102771141B (zh) * 2009-12-24 2016-01-20 诺基亚技术有限公司 一种电子装置及用于电子装置的方法
US9196238B2 (en) 2009-12-24 2015-11-24 Nokia Technologies Oy Audio processing based on changed position or orientation of a portable mobile electronic apparatus
US9220980B2 (en) 2011-12-19 2015-12-29 Empire Technology Development Llc Pause and resume schemes for gesture-based game
CN103974752A (zh) * 2011-12-19 2014-08-06 英派尔科技开发有限公司 用于基于姿势的游戏的暂停和重新开始方案
CN103974752B (zh) * 2011-12-19 2016-05-18 英派尔科技开发有限公司 用于基于姿势的游戏的暂停和重新开始方案
US9563265B2 (en) 2012-01-12 2017-02-07 Qualcomm Incorporated Augmented reality with sound and geometric analysis
CN104054039A (zh) * 2012-01-12 2014-09-17 高通股份有限公司 具有声音和几何分析的扩增现实
CN104054039B (zh) * 2012-01-12 2017-04-19 高通股份有限公司 具有声音和几何分析的扩增现实
CN104508597B (zh) * 2012-07-26 2018-10-16 高通股份有限公司 用于控制扩增实境的方法及设备
CN104422922A (zh) * 2013-08-19 2015-03-18 中兴通讯股份有限公司 一种移动终端实现声源定位的方法及装置
CN104679471B (zh) * 2013-12-03 2019-04-23 联想(新加坡)私人有限公司 用于检测可听输入中的中止的装置、设备及方法
CN104679471A (zh) * 2013-12-03 2015-06-03 联想(新加坡)私人有限公司 用于检测可听输入中的中止的装置、设备及方法
US10993057B2 (en) 2016-04-21 2021-04-27 Hewlett-Packard Development Company, L.P. Electronic device microphone listening modes
CN109479172A (zh) * 2016-04-21 2019-03-15 惠普发展公司,有限责任合伙企业 电子设备麦克风监听模式
CN106067301A (zh) * 2016-05-26 2016-11-02 浪潮(苏州)金融技术服务有限公司 一种使用多维化技术进行回声降噪的方法
CN106067301B (zh) * 2016-05-26 2019-06-25 浪潮金融信息技术有限公司 一种使用多维化技术进行回声降噪的方法
CN109307856A (zh) * 2017-07-27 2019-02-05 深圳市冠旭电子股份有限公司 一种机器人空间定位的交互方法及装置
CN107886965B (zh) * 2017-11-28 2021-04-20 游密科技(深圳)有限公司 游戏背景音的回声消除方法
CN107886965A (zh) * 2017-11-28 2018-04-06 游密科技(深圳)有限公司 游戏背景音的回声消除方法
CN109168075A (zh) * 2018-10-30 2019-01-08 上海与德科技有限公司 一种视频信息传输方法、系统、服务器
CN109168075B (zh) * 2018-10-30 2021-11-30 重庆辉烨物联科技有限公司 一种视频信息传输方法、系统、服务器
CN110602424A (zh) * 2019-08-28 2019-12-20 维沃移动通信有限公司 视频处理方法及电子设备

Also Published As

Publication number Publication date
JP5339900B2 (ja) 2013-11-13
CN101132839B (zh) 2011-09-07
KR100985694B1 (ko) 2010-10-05
EP1877149A1 (en) 2008-01-16
TW200708328A (en) 2007-03-01
TWI308080B (en) 2009-04-01
JP2008539874A (ja) 2008-11-20
KR20080009153A (ko) 2008-01-24
WO2006121681A1 (en) 2006-11-16

Similar Documents

Publication Publication Date Title
CN101132839B (zh) 结合计算机交互处理的选择性声源监听
US8976265B2 (en) Apparatus for image and sound capture in a game environment
CN102707797B (zh) 通过自然用户界面控制多媒体系统中的电子设备
EP2352149B1 (en) Selective sound source listening in conjunction with computer interactive processing
US20110306426A1 (en) Activity Participation Based On User Intent
JP2022522070A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
JP2005346705A (ja) 通信システムにおける多感覚エモティコン
EP3660660A1 (en) Processing method for sound effect of recording and mobile terminal
JP2020537206A (ja) ロボットインタラクションのための方法及びデバイス
CN103366756A (zh) 一种声音信号的接收方法及装置
CN105934936A (zh) 控制会议中的语音组成
JP2022545924A (ja) 人工知能(ai)を用いたノイズキャンセレーション
CN111246227A (zh) 弹幕发布方法及设备
CN112511850A (zh) 连麦方法、直播显示方法、装置、设备及存储介质
CN111327918A (zh) 网络直播房间的互动方法、装置以及存储介质
CN110147496B (zh) 内容推送方法及装置
US20100062847A1 (en) Electronic gaming system and method
CN106861179A (zh) 一种基于体感技术的手机游戏控制系统
US20170246534A1 (en) System and Method for Enhanced Immersion Gaming Room
CN111312244B (zh) 用于沙盘的语音交互系统及方法
TWI729323B (zh) 互動式遊戲系統
US10832040B2 (en) Cognitive rendering of inputs in virtual reality environments
CN116943139A (zh) 控制虚拟对象的方法及装置
CN116126276A (zh) 互动匹配方法及装置、存储介质、计算机设备
CN115309261A (zh) 一种人机互动方法、装置、存储介质及车辆

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant