CN102136269A - 经由标识信息的语音识别分析 - Google Patents
经由标识信息的语音识别分析 Download PDFInfo
- Publication number
- CN102136269A CN102136269A CN2011100311666A CN201110031166A CN102136269A CN 102136269 A CN102136269 A CN 102136269A CN 2011100311666 A CN2011100311666 A CN 2011100311666A CN 201110031166 A CN201110031166 A CN 201110031166A CN 102136269 A CN102136269 A CN 102136269A
- Authority
- CN
- China
- Prior art keywords
- data
- voice segments
- discerning
- putting
- discerned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title description 6
- 238000000034 method Methods 0.000 claims abstract description 51
- 230000000007 visual effect Effects 0.000 claims abstract description 42
- 230000002452 interceptive effect Effects 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 206010038743 Restlessness Diseases 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008676 import Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001066 destructive effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000004454 trace mineral analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/10—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
- A63F2300/1081—Input via voice recognition
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/10—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
- A63F2300/1087—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals comprising photodetecting means, e.g. a camera
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/60—Methods for processing data by generating or executing the game program
- A63F2300/6063—Methods for processing data by generating or executing the game program for sound processing
- A63F2300/6072—Methods for processing data by generating or executing the game program for sound processing of an input signal, e.g. pitch and rhythm extraction, voice recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/22—Source localisation; Inverse modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明描述了一种经由标识信息的语音识别分析的方法和系统。所公开的各实施例涉及使用身份信息来帮助避免在语音识别系统中发生假肯定语音识别事件。一个实施例提供了一种方法,该方法包括接收语音识别数据,该语音识别数据包括所识别的语音段、经由来自麦克风阵列的信号所确定的与所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据,并且还接收包括与图像中的每个人的位置有关的视觉位置信息的图像数据。将声学位置数据与视觉位置数据进行比较来确定所识别的语音段是否源自图像传感器的视场中的人,并且基于该确定来调整置信数据。
Description
技术领域
本发明涉及语音识别技术,尤其涉及一种经由标识信息的语音识别分析的方法和系统。
背景技术
语音识别技术允许计算设备的用户经由语音命令而非经由键盘或其他外围设备输入设备来作出输入。不同的语音识别系统共有的一个困难在于将预期语音输入与其他所接收的声音辨别开来,这些声音包括但不限于,背景噪声、背景语音、以及来自当前系统用户的不旨在成为输入的语音。
提出了将预期语音输入与其他声音辨别开来的各种方法。例如,某些语音输入系统在接受任何语音并将其作为输入进行分析之前要求用户说出一个特定命令,诸如“开始收听”。然而,这些系统可能仍然易于受到随机地匹配所识别的语音模式并因此被解释为输入的背景噪声的影响。这种“假肯定”可能导致语音识别系统执行用户未期望的动作,或者甚至在没有用户在场的情况下执行动作。
发明内容
因此,本文公开了涉及使用身份信息来帮助避免在语音识别系统中发生假肯定语音识别事件的各种实施例。例如,一个所公开的实施例提供了一种操作语音识别输入系统的方法。该方法包括接收语音识别数据,该语音识别数据包括所识别的语音段、经由来自麦克风阵列的信号所确定的与所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据,并且还接收包括与位于图像传感器的视场中的每一个人的位置有关的视觉位置信息的图像数据。将声学位置数据与视觉位置数据进行比较来确定所识别的语音段是否源自图像传感器的视场中的人。该方法还包括基于所识别的语音段是否被确定为源自图像传感器的视场中的人来调整置信数据。
提供本发明内容是为了以简化的形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本发明的任一部分中提及的任何或所有缺点的实现。
附图说明
图1示出视频游戏环境形式的示例语音输入环境的一个实施例。
图2示出包括语音识别输入系统的计算系统的一个实施例的框图。
图3示出描绘了使用身份数据来分析语音输入的方法的一个实施例的流程图。
图4示出描绘了使用身份数据来分析语音输入的方法的另一实施例的流程图。
图5示出用于使用身份数据来分析语音输入的系统的一个实施例的框图。
图6示出了深度图像的帧的一个实施例的一部分的示意性描绘。
具体实施方式
本公开涉及避免语音识别输入系统中的假肯定语音识别。此外,所公开的各实施例还可以在语音识别系统环境中存在多个用户的情况下帮助确保语音识别事件源自所期望的用户。例如,在多个用户正在玩知识竞赛(game show)主题的视频游戏并且该游戏要求特定人回答特定问题的情况下,所公开的各实施例可以帮助阻塞其他用户喊叫的回答。可以理解,可以使用该语音识别输入系统来实现对任意合适的设备的语音输入。各示例包括但不限于,交互式娱乐系统,诸如视频游戏控制台、数字录像机、数字电视机和其他媒体播放器以及将这些功能中的两个或更多进行组合的设备。
图1示出交互式娱乐系统10形式的示例语音识别使用环境,该交互式娱乐系统10可以用于播放各种各样不同的游戏、播放一个或多个不同的媒体类型、和/或控制或操纵非游戏应用程序。交互式娱乐系统10包括被配置成在显示器104上显示图像的控制台102,显示器104被示为可以用于向一个或多个游戏玩家呈现游戏视觉形象的电视机。可以理解,图1中示出的示例实施例是出于说明的目的而呈现的,并且不旨在以任何方式进行限制。
娱乐系统10还包括具有深度感测照相机和麦克风阵列的输入设备100。深度感测照相机可以用于在视觉上监视娱乐系统10的一个或多个用户,而麦克风阵列可以用于由接收玩家作出的语音命令。使用麦克风阵列而非单个麦克风允许从音频数据中确定关于声音(例如,玩家说话)的源的位置的信息。
输入设备100所获取的数据允许玩家在不使用手持式控制器或其他远程设备的情况下作出输入。相反,语音输入、移动和/或其组合可以被娱乐系统10解释为可以用于影响娱乐系统10正在执行的游戏的控制命令。
游戏玩家108的移动和语音输入几乎可以被解释为任何类型的游戏控制命令。例如,图1中示出的示例场景示出游戏玩家108正在玩正由交互式娱乐系统10执行的拳击游戏。游戏系统使用电视机104来在视觉上向游戏玩家108呈现拳击对手110。此外,娱乐系统10还在视觉上呈现游戏玩家108用移动来控制的玩家化身112。例如,游戏玩家108可以在物理空间中挥重拳来作为对玩家化身112在游戏空间中挥重拳的指令。娱乐系统10和输入设备110可以用于识别和分析物理空间中游戏玩家108的重拳,从而使得该重拳可以被解释为使得游戏化身112在游戏空间中挥重拳的游戏控制命令。还可以使用语音命令来控制玩的各方面。
此外,某些移动和语音输入可以被解释为用作除了控制游戏化身112之外的目的的控制命令。例如,玩家可使用移动和/或语音命令来结束、暂停或保存游戏,选择级别,查看高分,与朋友通信等。所示出的拳击场景是作为示例来提供的,但决不意味着以任何方式进行限制。相反,所示出的场景旨在展示可以在不背离本公开的范围的情况下应用于各种各样不同的应用程序的一般概念。
图2示出了图1的实施例的框图。如上所述,输入设备100包括用于检测玩家运动的图像传感器,诸如深度感测照相机202,并且还包括检测来自玩家的语音输入的麦克风阵列204。深度感测照相机202可以利用用于确定照相机的视场中的目标对象(例如,玩家)的深度的任何合适的机制,包括但不限于结构化光机制。同样,麦克风阵列204可以具有任何合适数量和排列的麦克风。例如,在一个具体实施例中,麦克风阵列204可以具有四个麦克风,这四个麦克风在空间上被排列为避免来自源的声音实例在全部四个麦克风处进行破坏性干扰。在其他实施例中,输入设备100可以包括除了深度感测照相机之外的图像传感器。
输入设备100还包括包含可由处理器208执行以执行各种功能的指令的存储器206,这些功能与从深度感测照相机202和麦克风阵列204接收输入、处理这些输入、和/或将这些输入传递到控制台102有关。这些功能的各实施例将在下文中更详细地描述。控制台102同样包括其上存储有可由处理器212执行以执行与娱乐系统10的操作有关的各种功能的指令的存储器210,这些功能的各实施例将在下文中更详细地描述。
如上所述,语音识别系统可能难以将预期语音输入与诸如背景噪声、背景语音(即,不是源自当前用户的语音)等其他所接收的声音辨别开来。此外,语音识别系统可能还难以区分来自当前系统用户的、不旨在成为输入的语音。涉及用户发出诸如“开始收听”等特定语音命令来发起语音识别会话的当前方法可能遭受其中背景噪声随机地匹配这种语音模式的假肯定。另一种方法涉及利用照相机来检测当前用户的凝视以确定来自用户的语音是否旨在作为语音输入。然而,该方法依赖于在系统使用期间用户处在预期位置,并且因此在用户四处移动、用户可能在照相机的视野之外、和/或没有用户在场的动态使用环境中可能无效。
因此,图3示出描绘了用于操作语音识别输入系统的方法300的一个实施例的流程图。方法300包括在步骤302处接收语音识别数据。语音识别数据可以包括诸如所识别的语音段304、指示所识别的语音段的源的方向和/或位置的声学位置信息306、和/或表示所识别的语音段与其匹配的语音模式的匹配的确信度的置信值的置信数据308等数据。所识别的语音段304和置信数据308可以是各自从对麦克风阵列所接收的声音的分析来确定的,例如,通过经由数字音频处理将来自麦克风的信号组合成单个语音信号并随后执行语音识别分析。同样,声学位置信息306可以是经由对接收所识别的语音段的相对时刻的分析来从麦克风阵列的输出中确定的。用于这些过程中的每一个的各种技术是公知的。
接着,方法300包括在312处接收图像数据。图像数据可以包括例如经处理的图像数据,该图像数据最初由深度感测照相机接收并随后被处理来标识图像中的人或其他对象。在某些实施例中,图像中的个别像素或像素组可以用元数据来标记,该元数据表示在该像素处成像的对象的类型(例如,“玩家1”),并且还表示该对象相距输入设备的距离。该数据在图3中被示为“视觉位置信息”314。下面将更详细地描述这种图像数据的一个示例实施例。
在接收到语音识别数据和图像数据之后,方法300接着包括,在316处,将声学位置信息和视觉位置信息进行比较,并且在318处,基于所识别的语音段是否被确定为源自图像传感器视场中的人来调整置信数据。例如,如果确定所识别的语音段不是源自视野中的玩家,则可以降低置信值,或者可以将第二置信值添加到置信数据,其中该第二置信值是被配置成(在这种情况下)传达所识别的语音段来自活动用户的较低置信水平的预期输入置信值。同样,在确定所识别的语音段的确源自视野中的玩家的情况下,可以增大置信值或使其保持不变,或者可以将预期输入置信值添加到置信数据来传达所识别的语音段来自活动用户的较高置信水平。
在任一种情况下,可以将所识别的语音段和经修改的置信数据提供给应用程序以供使用。通过使用该数据,应用程序可以基于经修改的置信数据来决定是接受还是拒绝所识别的语音段。此外,在确定所识别的语音段很可能不旨在成为语音输入的某些情况下,方法300可以包括拒绝所识别的语音段,并因此不将其传递给应用程序。在这种情况下,对所识别的语音段的这种拒绝可以被认为是将置信水平调整到低于最低置信阈值的水平。可以理解,以上给出的用于调整置信数据的特定示例是出于说明的目的而描述的,并且可以对置信值作出任何其他合适的调整。
在某些情况下,可以使用除了声学位置信息和视觉位置信息之外的其他信息来帮助确定所识别的语音段旨在成为输入的置信水平。图4示出描绘了利用可以用于帮助确定所识别的语义段是否旨在成为语音输入的数据的各种示例的方法400的一个实施例的流程图。此外,图5示出适用于执行方法400的系统500的一个实施例。
方法400包括在402处接收所识别的语音段和置信数据。如图5所示,这种信号可以作为来自音频处理流水线的输出来接收,该音频处理流水线被配置成经由模-数转换器(ADC)从麦克风阵列接收多个音频信号,如502处所指示的。所示出的音频处理流水线实施例包括由框504概括地示出的一个或多个数字音频处理阶段,并且还包括语音识别阶段506。
数字音频处理阶段504可以被配置成对数字化麦克风信号执行任何合适的数字音频处理。例如,数字音频处理阶段504可以被配置成移除噪声、将四个麦克风信号组合成单个音频信号、以及输出包括关于从其接收语音输入的方向和/或位置的信息的声学位置信息507。语音识别阶段506如上所述地可被配置成将从数字音频处理阶段504接收的输入与多个所识别的语音模式进行比较从而试图识别语音输入。语音识别阶段506随后可以将所识别的语音段以及每一所识别的语音段的置信数据输出到意图确定阶段508。此外,意图确定阶段508还可以从数字音频处理阶段504接收声学位置信息。可以理解,在某些实施例中,声学位置信息可以经由语音识别阶段506来接收或者接收自任何其他合适的组件。
回头参考图4,方法400接着包括确定所识别的语音段是否源自图像传感器的视野中的玩家。该确定可以按任何合适的方式作出。例如,再次参考图5,来自深度感测照相机的图像数据可以由将这种视频处理执行为骨架跟踪的视频处理阶段510来接收。
视频处理阶段510可以输出任何合适的数据,包括但不限于,包含从骨架跟踪分析中确定的关于每一像素处的对象的位置和深度的信息的合成深度图像。图6示出合成深度图像600的一个示例实施例的一部分中包含的数据的示意图。合成深度图像600包括多个像素,每一像素包括图像数据和包含经由骨架跟踪所确定的关于位于图像中的人的信息的相关联元数据。例如,第一像素602包括第一组元数据604。第一组元数据604从上到下被示为包括,像素索引(被示为[x,y]坐标)、指示图像中的人的身体部位的深度的深度值(例如,与深度感测照相机相距的距离)、身体部位标识(此处被概括地示为“bp 4”或身体部位4)、以及玩家号(“P1”或玩家1)。此外,看到第二像素606包括第二组元数据608。将第一组元数据604和第二组元数据608进行比较,可以看到第一像素602和第二像素606被标识为在与深度感测照相机相距不同的距离处成像不同的身体部位。因此,经处理的图像数据包括与深度感测照相机的视场中的每一个人的距离有关的视觉位置信息。
再次参考图4,在404处,可以将这种视觉位置信息与声学位置信息进行比较来帮助确定所识别的语音段是否源自深度感测照相机或其他图像传感器的视场中的玩家。如果确定所识别的语音段不是源自深度感测照相机的视场中的玩家,则方法400包括在406处确定所识别的语音段源自的人是否可以通过话音来标识。这可以按任何合适的方式来执行。例如,再次参考图5,交互式娱乐系统可以维护用户话音模式514的数据库(例如,可以要求系统的每一个新用户输入话音样本来允许系统维护用户的话音模式的记录)来允许通过话音对用户的后续标识。回头参考图4,如果确定所识别的语音段不是源自视野中的玩家并且说话者无法通过话音来标识,则方法400包括拒绝所识别的语音段,如408处所示。在该实例中,不将所识别的声音段传递给应用程序以供使用。另一方面,如果说话者可以通过话音来标识,则在510处修改置信数据来反映所识别的语音输入旨在成为输入的置信度的降低。可以理解,在说话者不在深度感测照相机的视场中并且不能通过话音来标识的其他实施例中,可以不拒绝所识别的语音段,但可以改为修改置信数据。
返回到过程404,如果确定所识别的语音段源自深度感测照相机的视场中的人,则方法400包括在412处确定该人是否面向深度感测照相机。这可以包括,例如,确定视觉位置数据是否指示了该玩家的任何面部特征(例如,眼睛、鼻子、嘴巴、整张脸等)是可见的。这种确定可以是有用的,例如,用于在用户正与另一用户并排坐着并与其谈话(即,非活动用户作出的语音)和用户正在作出语音输入(即,活动用户作出的语音)之间进行区分。如果在412处确定用户未面向照相机,则方法400包括在414处调整置信数据来反映所识别的语音输入旨在成为输入的置信度的降低。另一方面,如果确定该用户正面向照相机,则不调整置信数据。可以理解,在其他实施例中,可以对置信数据作出除了此处描述的调整之外的任何其他合适的调整来反映从412处的确定所导致的不同的置信水平。
接着在416处,确定所识别的语音段源自的人是否可以通过话音来标识。如上对过程406所描述的,这可以按任何合适的方式来执行,诸如通过咨询用户话音模式514的数据库。如果确定所识别的语音段不是源自视野中的玩家并且说话者不能通过话音来标识,则方法400包括在418处调整置信数据来反映所识别的语音输入旨在成为输入的置信度的降低。另一方面,如果确定用户正面向照相机,则不调整置信数据。可以理解,在其他实施例中,可以对置信数据作出除了此处描述的调整之外的任何其他合适的调整来反映从416处的确定所导致的不同的置信水平。
方法400接着包括在420处确定用户的语音输入是否包含所识别的关键词。该所识别的关键词可以是被认为是指示后续语音很可能旨在作为语音输入的词语或短语,并且可以将该所识别的关键词存储在数据库中,如图5中516处所指示的。如果在420处确定所识别的语音段领先于在预定时间窗口中接收的关键词,则方法400包括在422处调整置信数据。另一方面,如果确定在预定时间窗口中的关键词领先于所识别的语音段,则方法400包括基于在接收到关键词和所识别的语音段之间经过的时间量来调整置信数据。例如,在某些实施例中,所应用的调整的大小可以遵循作为时间函数的衰减型曲线,从而使得该调整反映了随着在接收到关键词和接收到所识别的语音段之间经过的时间越多而渐进地减少的置信度。在其他实施例中,调整在本质上可以是二进制的或者步进式的,从而使得不对置信数据作出调整直到接收到关键词和接收到所识别的语音段之间经过的时间达到预定时间量。可以理解,依赖时间的调整的这些示例是出于说明的目的而描述的,并且不旨在以任何方式进行限制。
还可以理解,图4中示出的过程的示例和次序是出于示例的目的而呈现的,并不旨在进行限制。在其他实施例中,对用户作出语音输入的意图的确定可以仅利用所示出的过程的子集和/或利用未示出的附加过程。此外,这些过程可以按照任何合适的次序来应用。
可以明白,此处所描述的计算设备可以是被配置成执行此处所描述的程序的任何合适的计算设备。例如,计算设备可以是大型计算机、个人计算机、膝上型计算机、便携式数据助理(PDA)、机顶盒、游戏控制台、启用计算机的无线电话、联网计算设备,或其他合适的计算设备,并可以经由诸如因特网等计算机网络彼此连接。这些计算设备通常包括处理器以及相关联的易失性和非易失性存储器,并被配置成使用易失性存储器的各部分和处理器来执行存储在非易失性存储器中的程序。如此处所使用的,术语“程序”指的是可由此处所描述的一个或多个计算设备执行或利用的软件或固件组件,并且意味着包含单独的或各组可执行文件、数据文件、库、驱动程序、脚本、数据库记录等等。可以理解,可以提供其上存储有程序指令的计算机可读存储介质,该程序指令在由计算设备执行时使该计算设备执行上文所描述的方法并使得操作上述系统。
应该理解,此处所述的配置和/或方法在本质上示例性的,且这些具体实施例或示例不是局限性的,因为多个变体是可能。此处所述的具体例程或方法可表示任何数量的处理策略中的一个或多个。由此,所示出的各个动作可以按所示顺序执行、按其他顺序执行、并行地执行、或者在某些情况下省略。同样,可以改变上述过程的次序。
本发明的主题包括各种过程、系统和配置的所有新颖和非显而易见的组合和子组合、和此处所公开的其它特征、功能、动作、和/或特性、以及其任何和全部等效方案。
Claims (15)
1.一种在包括麦克风阵列和图像传感器的计算系统中操作语音识别输入系统的方法(300),所述方法包括:
接收(302)语音识别数据,所述语音识别数据包括所识别的语音段、经由来自所述麦克风阵列的信号确定的与所述所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据;
接收(312)包括与位于所述图像传感器的视场中的每个人的位置有关的视觉位置信息的图像数据;
将所述声学位置数据与所述视觉位置数据进行比较(316)来确定所述所识别的语音段是否源自所述图像传感器的所述视场中的人;以及
基于所述所识别的语音段是否被确定为源自所述图像传感器的所述视场中的人来调整(318)所述置信数据。
2.如权利要求1所述的方法,其特征在于,调整所述置信数据包括降低所述识别置信值。
3.如权利要求1所述的方法,其特征在于,调整所述置信数据包括确定被配置成传达所述所识别的语音段是否来自活动用户的置信水平的预期输入置信值。
4.如权利要求1所述的方法,其特征在于,还包括基于所述所识别的语音段是否被确定为源自所识别的说话者来调整所述置信数据。
5.如权利要求1所述的方法,其特征在于,如果所述所识别的语音段被确定为不是源自所识别的说话者并且被确定为不是源自所述图像传感器的所述视场中的人,则调整所述置信数据包括拒绝所述所识别的语音段。
6.如权利要求1所述的方法,其特征在于,如果确定所述所识别的语音段源自所述图像传感器的所述视场中的人,则在随后确定所述人的脸部是否面向所述图像传感器,并且基于所述人的脸部是否面向所述图像传感器来调整所述置信数据。
7.如权利要求1所述的方法,其特征在于,还包括在接收所述所识别的语音段之前接收关键词的语音输入,并且其中调整所述置信数据包括基于在接收到所述关键词的语音输入和接收到所述所识别的语音段之间经过的时间量来调整所述置信数据。
8.如权利要求1所述的方法,其特征在于,所述图像传感器是深度感测照相机,并且其中接收包含视觉位置信息的图像数据包括接收包含与所述深度感测照相机的所述视场中的每个人的距离有关的信息的图像数据。
9.一种交互式娱乐系统(200),包括:
深度感测照相机(202);
包括多个麦克风的麦克风阵列(204)以及
计算设备(102),所述计算设备包括处理器(210)和其上包含有指令的存储器(212),所述指令可以由所述处理器执行以:
接收包括语音识别数据,所述语音识别数据包括所识别的语音段、经由来自所述麦克风阵列(204)的信号确定的与所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据;
接收包括与位于所述深度感测照相机(202)的视场中的每个人的位置有关的视觉位置信息的图像数据;
将所述声学位置数据与所述视觉位置数据进行比较以确定所述所识别的语音段是否源自所述深度感测照相机(202)的所述视场中的人;以及
基于所述所识别的语音段是否被确定为源自所述深度感测照相机(202)的所述视场中的人来调整所述置信数据。
10.如权利要求9所述的交互式娱乐系统,其特征在于,所述指令可被执行来通过降低所述识别置信值来调整所述置信数据。
11.如权利要求9所述的交互式娱乐系统,其特征在于,所述指令可被执行来通过确定并包括被配置成传达所述所识别的语音段是否来自活动用户的置信水平的预期输入置信值来调整所述置信数据。
12.如权利要求9所述的交互式娱乐系统,其特征在于,所述指令还可被执行以:
确定所述所识别的语音段是否源自所识别的说话者,以及
基于所述所识别的语音段被确定为源自所识别的说话者来调整所述置信数据。
13.如权利要求12所述的交互式娱乐系统,其特征在于,所述指令还可被执行以执行以下动作:如果所述所识别的语音段被确定为不是源自所识别的说话者并且所述所识别的语音段被确定为不是源自所述深度感测照相的所述视场中的人,则拒绝所述所识别的语音段。
14.如权利要求9所述的交互式娱乐系统,其特征在于,所述指令还可被执行以:
确定所述所识别的语音段源自所述图像传感器的所述视场中的人,
确定所述人的脸是否面向所述图像传感器,以及
基于所述人的脸是否面向所述图像传感器来调整所述置信数据。
15.如权利要求9所述的交互式娱乐设备,其特征在于,还包括在接收所述所识别的语音段之前接收关键词的语音输入,并且其中调整所述置信数据包括基于在接收到所述关键词的语音输入和接收到所述所识别的语音段之间经过的时间量来调整所述置信数据。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/692,538 | 2010-01-22 | ||
US12/692,538 US8676581B2 (en) | 2010-01-22 | 2010-01-22 | Speech recognition analysis via identification information |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102136269A true CN102136269A (zh) | 2011-07-27 |
CN102136269B CN102136269B (zh) | 2013-05-22 |
Family
ID=44296031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100311666A Active CN102136269B (zh) | 2010-01-22 | 2011-01-21 | 经由标识信息的语音识别分析 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8676581B2 (zh) |
CN (1) | CN102136269B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945672A (zh) * | 2012-09-29 | 2013-02-27 | 深圳市国华识别科技开发有限公司 | 一种多媒体设备语音控制系统及方法 |
CN103188549A (zh) * | 2011-12-28 | 2013-07-03 | 宏碁股份有限公司 | 视频播放装置及其操作方法 |
CN103294939A (zh) * | 2012-02-01 | 2013-09-11 | 国际商业机器公司 | 用于虚拟化身认证的方法和系统 |
CN103578468A (zh) * | 2012-08-01 | 2014-02-12 | 联想(北京)有限公司 | 一种语音识别中置信度阈值的调整方法及电子设备 |
CN104345649A (zh) * | 2013-08-09 | 2015-02-11 | 晨星半导体股份有限公司 | 应用于声控装置的控制器与相关方法 |
CN104679768A (zh) * | 2013-11-29 | 2015-06-03 | 百度在线网络技术(北京)有限公司 | 从文档中提取关键词的方法和设备 |
CN104823234A (zh) * | 2012-10-26 | 2015-08-05 | 微软技术许可有限责任公司 | 利用深度成像扩充语音识别 |
CN105556592A (zh) * | 2013-06-27 | 2016-05-04 | 亚马逊技术股份有限公司 | 检测自我生成的唤醒声调 |
CN105812969A (zh) * | 2014-12-31 | 2016-07-27 | 展讯通信(上海)有限公司 | 一种拾取声音信号的方法、系统及装置 |
CN106599866A (zh) * | 2016-12-22 | 2017-04-26 | 上海百芝龙网络科技有限公司 | 一种多维度用户身份识别方法 |
CN107077847A (zh) * | 2014-11-03 | 2017-08-18 | 微软技术许可有限责任公司 | 关键短语用户识别的增强 |
CN107430395A (zh) * | 2014-12-29 | 2017-12-01 | Abb瑞士股份有限公司 | 用于识别与加工厂中的条件关联的事件序列的方法 |
CN107911743A (zh) * | 2011-08-26 | 2018-04-13 | 谷歌有限责任公司 | 用于确定媒体项正被呈现的置信水平的系统和方法 |
CN109031961A (zh) * | 2018-06-29 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 用于控制操作对象的方法和装置 |
CN109145285A (zh) * | 2017-06-19 | 2019-01-04 | 通用汽车环球科技运作有限责任公司 | 短语提取文本分析方法和系统 |
CN109200578A (zh) * | 2017-06-30 | 2019-01-15 | 电子技术公司 | 用于视频游戏的交互式语音控制的伴随应用 |
CN109791616A (zh) * | 2016-06-14 | 2019-05-21 | O·内策尔 | 自动语音识别 |
CN110058892A (zh) * | 2019-04-29 | 2019-07-26 | Oppo广东移动通信有限公司 | 电子设备交互方法、装置、电子设备及存储介质 |
CN110663021A (zh) * | 2017-11-06 | 2020-01-07 | 谷歌有限责任公司 | 关注出席用户的方法和系统 |
CN111128146A (zh) * | 2018-10-30 | 2020-05-08 | 英飞凌科技股份有限公司 | 用于用户交互的改进设备 |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9704502B2 (en) * | 2004-07-30 | 2017-07-11 | Invention Science Fund I, Llc | Cue-aware privacy filter for participants in persistent communications |
US9779750B2 (en) | 2004-07-30 | 2017-10-03 | Invention Science Fund I, Llc | Cue-aware privacy filter for participants in persistent communications |
KR101462932B1 (ko) * | 2008-05-28 | 2014-12-04 | 엘지전자 주식회사 | 이동 단말기 및 그의 텍스트 수정방법 |
US8869195B2 (en) * | 2009-12-10 | 2014-10-21 | At&T Intellectual Property I, L.P. | Apparatus and method for managing voice communications |
US8935737B2 (en) | 2009-12-10 | 2015-01-13 | At&T Intellectual Property I, Lp | Apparatus and method for managing voice communications |
US8442835B2 (en) | 2010-06-17 | 2013-05-14 | At&T Intellectual Property I, L.P. | Methods, systems, and products for measuring health |
FR2962048A1 (fr) * | 2010-07-02 | 2012-01-06 | Aldebaran Robotics S A | Robot humanoide joueur, methode et systeme d'utilisation dudit robot |
US9263034B1 (en) * | 2010-07-13 | 2016-02-16 | Google Inc. | Adapting enhanced acoustic models |
US8666768B2 (en) | 2010-07-27 | 2014-03-04 | At&T Intellectual Property I, L. P. | Methods, systems, and products for measuring health |
US9274744B2 (en) | 2010-09-10 | 2016-03-01 | Amazon Technologies, Inc. | Relative position-inclusive device interfaces |
US8700392B1 (en) * | 2010-09-10 | 2014-04-15 | Amazon Technologies, Inc. | Speech-inclusive device interfaces |
US8639508B2 (en) * | 2011-02-14 | 2014-01-28 | General Motors Llc | User-specific confidence thresholds for speech recognition |
US9921641B1 (en) | 2011-06-10 | 2018-03-20 | Amazon Technologies, Inc. | User/object interactions in an augmented reality environment |
US10008037B1 (en) | 2011-06-10 | 2018-06-26 | Amazon Technologies, Inc. | User/object interactions in an augmented reality environment |
US9996972B1 (en) | 2011-06-10 | 2018-06-12 | Amazon Technologies, Inc. | User/object interactions in an augmented reality environment |
US9973848B2 (en) * | 2011-06-21 | 2018-05-15 | Amazon Technologies, Inc. | Signal-enhancing beamforming in an augmented reality environment |
US9318129B2 (en) | 2011-07-18 | 2016-04-19 | At&T Intellectual Property I, Lp | System and method for enhancing speech activity detection using facial feature detection |
US9256396B2 (en) * | 2011-10-10 | 2016-02-09 | Microsoft Technology Licensing, Llc | Speech recognition for context switching |
US8700398B2 (en) * | 2011-11-29 | 2014-04-15 | Nuance Communications, Inc. | Interface for setting confidence thresholds for automatic speech recognition and call steering applications |
US9223415B1 (en) | 2012-01-17 | 2015-12-29 | Amazon Technologies, Inc. | Managing resource usage for task performance |
EP2817785B1 (en) * | 2012-02-23 | 2019-05-15 | Charles D. Huston | System and method for creating an environment and for sharing a location based experience in an environment |
US9786281B1 (en) | 2012-08-02 | 2017-10-10 | Amazon Technologies, Inc. | Household agent learning |
US9424840B1 (en) * | 2012-08-31 | 2016-08-23 | Amazon Technologies, Inc. | Speech recognition platforms |
KR102091236B1 (ko) * | 2012-09-28 | 2020-03-18 | 삼성전자 주식회사 | 전자기기 및 그 제어방법 |
US9412375B2 (en) | 2012-11-14 | 2016-08-09 | Qualcomm Incorporated | Methods and apparatuses for representing a sound field in a physical space |
US8571851B1 (en) * | 2012-12-31 | 2013-10-29 | Google Inc. | Semantic interpretation using user gaze order |
US9747900B2 (en) | 2013-05-24 | 2017-08-29 | Google Technology Holdings LLC | Method and apparatus for using image data to aid voice recognition |
US20150046161A1 (en) * | 2013-08-07 | 2015-02-12 | Lenovo (Singapore) Pte. Ltd. | Device implemented learning validation |
US9847082B2 (en) * | 2013-08-23 | 2017-12-19 | Honeywell International Inc. | System for modifying speech recognition and beamforming using a depth image |
US11199906B1 (en) | 2013-09-04 | 2021-12-14 | Amazon Technologies, Inc. | Global user input management |
US9367203B1 (en) | 2013-10-04 | 2016-06-14 | Amazon Technologies, Inc. | User interface techniques for simulating three-dimensional depth |
EP2933067B1 (en) * | 2014-04-17 | 2019-09-18 | Softbank Robotics Europe | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method |
CA2891742C (en) * | 2014-05-15 | 2023-11-28 | Tyco Safety Products Canada Ltd. | System and method for processing control commands in a voice interactive system |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
WO2017199486A1 (ja) * | 2016-05-16 | 2017-11-23 | ソニー株式会社 | 情報処理装置 |
CN106303658B (zh) * | 2016-08-19 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 应用于视频直播的交互方法和装置 |
US10403273B2 (en) * | 2016-09-09 | 2019-09-03 | Oath Inc. | Method and system for facilitating a guided dialog between a user and a conversational agent |
US11100384B2 (en) | 2017-02-14 | 2021-08-24 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
US11010601B2 (en) | 2017-02-14 | 2021-05-18 | Microsoft Technology Licensing, Llc | Intelligent assistant device communicating non-verbal cues |
US10467510B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Intelligent assistant |
US10950228B1 (en) * | 2017-06-28 | 2021-03-16 | Amazon Technologies, Inc. | Interactive voice controlled entertainment |
US10776073B2 (en) | 2018-10-08 | 2020-09-15 | Nuance Communications, Inc. | System and method for managing a mute button setting for a conference call |
KR102228866B1 (ko) * | 2018-10-18 | 2021-03-17 | 엘지전자 주식회사 | 로봇 및 그의 제어 방법 |
CN112581981B (zh) * | 2020-11-04 | 2023-11-03 | 北京百度网讯科技有限公司 | 人机交互方法、装置、计算机设备和存储介质 |
WO2022141651A1 (en) * | 2021-01-04 | 2022-07-07 | Alibaba Group Holding Limited | Visual tracking system for active object |
US11842737B2 (en) * | 2021-03-24 | 2023-12-12 | Google Llc | Automated assistant interaction prediction using fusion of visual and audio input |
CN113128415B (zh) * | 2021-04-22 | 2023-09-29 | 合肥工业大学 | 一种环境辨别方法、系统、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5930383A (en) * | 1996-09-24 | 1999-07-27 | Netzer; Yishay | Depth sensing camera systems and methods |
US6243683B1 (en) * | 1998-12-29 | 2001-06-05 | Intel Corporation | Video control of speech recognition |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
CN1997161A (zh) * | 2006-12-30 | 2007-07-11 | 华为技术有限公司 | 一种视频终端以及一种音频码流处理方法 |
CN101068308A (zh) * | 2007-05-10 | 2007-11-07 | 华为技术有限公司 | 一种控制图像采集装置进行目标定位的系统及方法 |
CN101330585A (zh) * | 2007-06-20 | 2008-12-24 | 深圳Tcl新技术有限公司 | 一种声音定位的方法及系统 |
CN101355666A (zh) * | 2007-07-27 | 2009-01-28 | 深圳Tcl新技术有限公司 | 一种声音定位的系统 |
Family Cites Families (225)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4288078A (en) * | 1979-11-20 | 1981-09-08 | Lugo Julio I | Game apparatus |
US4695953A (en) * | 1983-08-25 | 1987-09-22 | Blair Preston E | TV animation interactively controlled by the viewer |
US4630910A (en) * | 1984-02-16 | 1986-12-23 | Robotic Vision Systems, Inc. | Method of measuring in three-dimensions at high speed |
US4627620A (en) * | 1984-12-26 | 1986-12-09 | Yang John P | Electronic athlete trainer for improving skills in reflex, speed and accuracy |
US4645458A (en) * | 1985-04-15 | 1987-02-24 | Harald Phillip | Athletic evaluation and training apparatus |
US4702475A (en) * | 1985-08-16 | 1987-10-27 | Innovating Training Products, Inc. | Sports technique and reaction training system |
US4843568A (en) * | 1986-04-11 | 1989-06-27 | Krueger Myron W | Real time perception of and response to the actions of an unencumbered participant/user |
US4711543A (en) * | 1986-04-14 | 1987-12-08 | Blair Preston E | TV animation interactively controlled by the viewer |
US4796997A (en) * | 1986-05-27 | 1989-01-10 | Synthetic Vision Systems, Inc. | Method and system for high-speed, 3-D imaging of an object at a vision station |
US5184295A (en) * | 1986-05-30 | 1993-02-02 | Mann Ralph V | System and method for teaching physical skills |
US4751642A (en) * | 1986-08-29 | 1988-06-14 | Silva John M | Interactive sports simulation system with physiological sensing and psychological conditioning |
US4809065A (en) * | 1986-12-01 | 1989-02-28 | Kabushiki Kaisha Toshiba | Interactive system and related method for displaying data to produce a three-dimensional image of an object |
US4817950A (en) * | 1987-05-08 | 1989-04-04 | Goo Paul E | Video game control unit and attitude sensor |
US5239463A (en) * | 1988-08-04 | 1993-08-24 | Blair Preston E | Method and apparatus for player interaction with animated characters and objects |
US5239464A (en) * | 1988-08-04 | 1993-08-24 | Blair Preston E | Interactive video system providing repeated switching of multiple tracks of actions sequences |
US4901362A (en) * | 1988-08-08 | 1990-02-13 | Raytheon Company | Method of recognizing patterns |
US4893183A (en) * | 1988-08-11 | 1990-01-09 | Carnegie-Mellon University | Robotic vision system |
JPH02199526A (ja) * | 1988-10-14 | 1990-08-07 | David G Capper | 制御インターフェース装置 |
US4925189A (en) * | 1989-01-13 | 1990-05-15 | Braeunig Thomas F | Body-mounted video game exercise device |
US5229756A (en) * | 1989-02-07 | 1993-07-20 | Yamaha Corporation | Image control apparatus |
US5469740A (en) | 1989-07-14 | 1995-11-28 | Impulse Technology, Inc. | Interactive video testing and training system |
JPH03103822U (zh) * | 1990-02-13 | 1991-10-29 | ||
US5101444A (en) * | 1990-05-18 | 1992-03-31 | Panacea, Inc. | Method and apparatus for high speed object location |
US5148154A (en) * | 1990-12-04 | 1992-09-15 | Sony Corporation Of America | Multi-dimensional user interface |
US5534917A (en) | 1991-05-09 | 1996-07-09 | Very Vivid, Inc. | Video image based control system |
US5417210A (en) * | 1992-05-27 | 1995-05-23 | International Business Machines Corporation | System and method for augmentation of endoscopic surgery |
US5295491A (en) * | 1991-09-26 | 1994-03-22 | Sam Technology, Inc. | Non-invasive human neurocognitive performance capability testing method and system |
US6054991A (en) | 1991-12-02 | 2000-04-25 | Texas Instruments Incorporated | Method of modeling player position and movement in a virtual reality system |
CA2101633A1 (en) | 1991-12-03 | 1993-06-04 | Barry J. French | Interactive video testing and training system |
US5875108A (en) | 1991-12-23 | 1999-02-23 | Hoffberg; Steven M. | Ergonomic man-machine interface incorporating adaptive pattern recognition based control system |
JPH07325934A (ja) | 1992-07-10 | 1995-12-12 | Walt Disney Co:The | 仮想世界に向上したグラフィックスを提供する方法および装置 |
US5999908A (en) | 1992-08-06 | 1999-12-07 | Abelow; Daniel H. | Customer-based product design module |
US5320538A (en) * | 1992-09-23 | 1994-06-14 | Hughes Training, Inc. | Interactive aircraft training system and method |
IT1257294B (it) | 1992-11-20 | 1996-01-12 | Dispositivo atto a rilevare la configurazione di un'unita' fisiologicadistale,da utilizzarsi in particolare come interfaccia avanzata per macchine e calcolatori. | |
US5495576A (en) | 1993-01-11 | 1996-02-27 | Ritchey; Kurtis J. | Panoramic image based virtual reality/telepresence audio-visual system and method |
US5690582A (en) | 1993-02-02 | 1997-11-25 | Tectrix Fitness Equipment, Inc. | Interactive exercise apparatus |
JP2799126B2 (ja) | 1993-03-26 | 1998-09-17 | 株式会社ナムコ | ビデオゲーム装置及びゲーム用入力装置 |
US5465317A (en) * | 1993-05-18 | 1995-11-07 | International Business Machines Corporation | Speech recognition system with improved rejection of words and sounds not in the system vocabulary |
US5405152A (en) * | 1993-06-08 | 1995-04-11 | The Walt Disney Company | Method and apparatus for an interactive video game with physical feedback |
US5454043A (en) | 1993-07-30 | 1995-09-26 | Mitsubishi Electric Research Laboratories, Inc. | Dynamic and static hand gesture recognition through low-level image analysis |
US5423554A (en) * | 1993-09-24 | 1995-06-13 | Metamedia Ventures, Inc. | Virtual reality game method and apparatus |
US5566272A (en) * | 1993-10-27 | 1996-10-15 | Lucent Technologies Inc. | Automatic speech recognition (ASR) processing using confidence measures |
US5980256A (en) | 1993-10-29 | 1999-11-09 | Carmein; David E. E. | Virtual reality system with enhanced sensory apparatus |
JP3419050B2 (ja) | 1993-11-19 | 2003-06-23 | 株式会社日立製作所 | 入力装置 |
US5347306A (en) * | 1993-12-17 | 1994-09-13 | Mitsubishi Electric Research Laboratories, Inc. | Animated electronic meeting place |
JP2552427B2 (ja) | 1993-12-28 | 1996-11-13 | コナミ株式会社 | テレビ遊戯システム |
US5577981A (en) | 1994-01-19 | 1996-11-26 | Jarvik; Robert | Virtual reality exercise machine and computer controlled video system |
US5580249A (en) | 1994-02-14 | 1996-12-03 | Sarcos Group | Apparatus for simulating mobility of a human |
US5597309A (en) | 1994-03-28 | 1997-01-28 | Riess; Thomas | Method and apparatus for treatment of gait problems associated with parkinson's disease |
US5385519A (en) * | 1994-04-19 | 1995-01-31 | Hsu; Chi-Hsueh | Running machine |
US5524637A (en) | 1994-06-29 | 1996-06-11 | Erickson; Jon W. | Interactive system for measuring physiological exertion |
US5563988A (en) | 1994-08-01 | 1996-10-08 | Massachusetts Institute Of Technology | Method and system for facilitating wireless, full-body, real-time user interaction with a digitally represented visual environment |
US6714665B1 (en) | 1994-09-02 | 2004-03-30 | Sarnoff Corporation | Fully automated iris recognition system utilizing wide and narrow fields of view |
US5516105A (en) | 1994-10-06 | 1996-05-14 | Exergame, Inc. | Acceleration activated joystick |
US5638300A (en) | 1994-12-05 | 1997-06-10 | Johnson; Lee E. | Golf swing analysis system |
JPH08161292A (ja) | 1994-12-09 | 1996-06-21 | Matsushita Electric Ind Co Ltd | 混雑度検知方法およびそのシステム |
US5594469A (en) | 1995-02-21 | 1997-01-14 | Mitsubishi Electric Information Technology Center America Inc. | Hand gesture machine control system |
US5682229A (en) | 1995-04-14 | 1997-10-28 | Schwartz Electro-Optics, Inc. | Laser range camera |
US5710866A (en) * | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
US5913727A (en) | 1995-06-02 | 1999-06-22 | Ahdoot; Ned | Interactive movement and contact simulation game |
JP3481631B2 (ja) | 1995-06-07 | 2003-12-22 | ザ トラスティース オブ コロンビア ユニヴァーシティー イン ザ シティー オブ ニューヨーク | 能動型照明及びデフォーカスに起因する画像中の相対的なぼけを用いる物体の3次元形状を決定する装置及び方法 |
US5682196A (en) | 1995-06-22 | 1997-10-28 | Actv, Inc. | Three-dimensional (3D) video presentation system providing interactive 3D presentation with personalized audio responses for multiple viewers |
US5702323A (en) | 1995-07-26 | 1997-12-30 | Poulton; Craig K. | Electronic exercise enhancer |
US5855000A (en) * | 1995-09-08 | 1998-12-29 | Carnegie Mellon University | Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input |
US6098458A (en) | 1995-11-06 | 2000-08-08 | Impulse Technology, Ltd. | Testing and training system for assessing movement and agility skills without a confining field |
US6308565B1 (en) | 1995-11-06 | 2001-10-30 | Impulse Technology Ltd. | System and method for tracking and assessing movement skills in multidimensional space |
US6073489A (en) | 1995-11-06 | 2000-06-13 | French; Barry J. | Testing and training system for assessing the ability of a player to complete a task |
US6430997B1 (en) | 1995-11-06 | 2002-08-13 | Trazer Technologies, Inc. | System and method for tracking and assessing movement skills in multidimensional space |
US6176782B1 (en) | 1997-12-22 | 2001-01-23 | Philips Electronics North America Corp. | Motion-based command generation technology |
US5933125A (en) | 1995-11-27 | 1999-08-03 | Cae Electronics, Ltd. | Method and apparatus for reducing instability in the display of a virtual environment |
US5641288A (en) | 1996-01-11 | 1997-06-24 | Zaenglein, Jr.; William G. | Shooting simulating process and training device using a virtual reality display screen |
JP2000510013A (ja) | 1996-05-08 | 2000-08-08 | リアル ヴィジョン コーポレイション | 位置検出を用いたリアルタイムシミュレーション |
US6173066B1 (en) | 1996-05-21 | 2001-01-09 | Cybernet Systems Corporation | Pose determination and tracking by matching 3D objects to a 2D sensor |
US5989157A (en) | 1996-08-06 | 1999-11-23 | Walton; Charles A. | Exercising system with electronic inertial game playing |
EP0959444A4 (en) | 1996-08-14 | 2005-12-07 | Nurakhmed Nurislamovic Latypov | METHOD FOR TRACKING AND REPRESENTING THE POSITION AND ORIENTATION OF A SUBJECT IN THE SPACE, METHOD FOR PRESENTING A VIRTUAL SPACE THEREON, AND SYSTEMS FOR CARRYING OUT SAID METHODS |
JP3064928B2 (ja) | 1996-09-20 | 2000-07-12 | 日本電気株式会社 | 被写体抽出方式 |
EP0849697B1 (en) | 1996-12-20 | 2003-02-12 | Hitachi Europe Limited | A hand gesture recognition system and method |
US6118888A (en) * | 1997-02-28 | 2000-09-12 | Kabushiki Kaisha Toshiba | Multi-modal interface apparatus and method |
US6009210A (en) | 1997-03-05 | 1999-12-28 | Digital Equipment Corporation | Hands-free interface to a virtual reality environment using head tracking |
US6100896A (en) | 1997-03-24 | 2000-08-08 | Mitsubishi Electric Information Technology Center America, Inc. | System for designing graphical multi-participant environments |
US5877803A (en) | 1997-04-07 | 1999-03-02 | Tritech Mircoelectronics International, Ltd. | 3-D image detector |
US6215898B1 (en) | 1997-04-15 | 2001-04-10 | Interval Research Corporation | Data processing system and method |
JP3077745B2 (ja) | 1997-07-31 | 2000-08-14 | 日本電気株式会社 | データ処理方法および装置、情報記憶媒体 |
US6188777B1 (en) | 1997-08-01 | 2001-02-13 | Interval Research Corporation | Method and apparatus for personnel detection and tracking |
US6289112B1 (en) | 1997-08-22 | 2001-09-11 | International Business Machines Corporation | System and method for determining block direction in fingerprint images |
US6720949B1 (en) | 1997-08-22 | 2004-04-13 | Timothy R. Pryor | Man machine interfaces and applications |
AUPO894497A0 (en) | 1997-09-02 | 1997-09-25 | Xenotech Research Pty Ltd | Image processing method and apparatus |
EP0905644A3 (en) | 1997-09-26 | 2004-02-25 | Matsushita Electric Industrial Co., Ltd. | Hand gesture recognizing device |
US6141463A (en) | 1997-10-10 | 2000-10-31 | Electric Planet Interactive | Method and system for estimating jointed-figure configurations |
US6130677A (en) | 1997-10-15 | 2000-10-10 | Electric Planet, Inc. | Interactive computer vision system |
US6072494A (en) | 1997-10-15 | 2000-06-06 | Electric Planet, Inc. | Method and apparatus for real-time gesture recognition |
US6101289A (en) | 1997-10-15 | 2000-08-08 | Electric Planet, Inc. | Method and apparatus for unencumbered capture of an object |
WO1999019840A1 (en) | 1997-10-15 | 1999-04-22 | Electric Planet, Inc. | A system and method for generating an animatable character |
AU1099899A (en) | 1997-10-15 | 1999-05-03 | Electric Planet, Inc. | Method and apparatus for performing a clean background subtraction |
US6181343B1 (en) | 1997-12-23 | 2001-01-30 | Philips Electronics North America Corp. | System and method for permitting three-dimensional navigation through a virtual reality environment using camera-based gesture inputs |
US6159100A (en) | 1998-04-23 | 2000-12-12 | Smith; Michael D. | Virtual reality game |
US6077201A (en) | 1998-06-12 | 2000-06-20 | Cheng; Chau-Yang | Exercise bicycle |
US6950534B2 (en) | 1998-08-10 | 2005-09-27 | Cybernet Systems Corporation | Gesture-controlled interfaces for self-service machines and other applications |
US7036094B1 (en) | 1998-08-10 | 2006-04-25 | Cybernet Systems Corporation | Behavior recognition system |
US7121946B2 (en) | 1998-08-10 | 2006-10-17 | Cybernet Systems Corporation | Real-time head tracking system for computer games and other applications |
US6801637B2 (en) | 1999-08-10 | 2004-10-05 | Cybernet Systems Corporation | Optical body tracker |
US6681031B2 (en) | 1998-08-10 | 2004-01-20 | Cybernet Systems Corporation | Gesture-controlled interfaces for self-service machines and other applications |
US20010008561A1 (en) | 1999-08-10 | 2001-07-19 | Paul George V. | Real-time object tracking system |
IL126284A (en) | 1998-09-17 | 2002-12-01 | Netmor Ltd | System and method for three dimensional positioning and tracking |
EP0991011B1 (en) | 1998-09-28 | 2007-07-25 | Matsushita Electric Industrial Co., Ltd. | Method and device for segmenting hand gestures |
AU1930700A (en) | 1998-12-04 | 2000-06-26 | Interval Research Corporation | Background estimation and segmentation based on range and color |
US6147678A (en) | 1998-12-09 | 2000-11-14 | Lucent Technologies Inc. | Video hand image-three-dimensional computer interface with multiple degrees of freedom |
WO2000036372A1 (en) | 1998-12-16 | 2000-06-22 | 3Dv Systems, Ltd. | Self gating photosurface |
US6570555B1 (en) | 1998-12-30 | 2003-05-27 | Fuji Xerox Co., Ltd. | Method and apparatus for embodied conversational characters with multimodal input/output in an interface device |
US6363160B1 (en) | 1999-01-22 | 2002-03-26 | Intel Corporation | Interface using pattern recognition and tracking |
US7003134B1 (en) | 1999-03-08 | 2006-02-21 | Vulcan Patents Llc | Three dimensional object pose estimation which employs dense depth information |
US6299308B1 (en) | 1999-04-02 | 2001-10-09 | Cybernet Systems Corporation | Low-cost non-imaging eye tracker system for computer control |
GB9908545D0 (en) * | 1999-04-14 | 1999-06-09 | Canon Kk | Image processing apparatus |
US6503195B1 (en) | 1999-05-24 | 2003-01-07 | University Of North Carolina At Chapel Hill | Methods and systems for real-time structured light depth extraction and endoscope using real-time structured light depth extraction |
US6476834B1 (en) | 1999-05-28 | 2002-11-05 | International Business Machines Corporation | Dynamic creation of selectable items on surfaces |
US6873723B1 (en) | 1999-06-30 | 2005-03-29 | Intel Corporation | Segmenting three-dimensional video images using stereo |
US6738066B1 (en) | 1999-07-30 | 2004-05-18 | Electric Plant, Inc. | System, method and article of manufacture for detecting collisions between video images generated by a camera and an object depicted on a display |
US7113918B1 (en) | 1999-08-01 | 2006-09-26 | Electric Planet, Inc. | Method for video enabled electronic commerce |
US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US7050606B2 (en) | 1999-08-10 | 2006-05-23 | Cybernet Systems Corporation | Tracking and gesture recognition system particularly suited to vehicular control applications |
US7447635B1 (en) * | 1999-10-19 | 2008-11-04 | Sony Corporation | Natural language interface control system |
ES2231448T3 (es) * | 2000-01-27 | 2005-05-16 | Siemens Aktiengesellschaft | Sistema y procedimiento para el procesamiento de voz enfocado a la vision. |
US6663491B2 (en) | 2000-02-18 | 2003-12-16 | Namco Ltd. | Game apparatus, storage medium and computer program that adjust tempo of sound |
US7445550B2 (en) * | 2000-02-22 | 2008-11-04 | Creative Kingdoms, Llc | Magical wand and interactive play experience |
US6633294B1 (en) | 2000-03-09 | 2003-10-14 | Seth Rosenthal | Method and apparatus for using captured high density motion for animation |
EP1152261A1 (en) | 2000-04-28 | 2001-11-07 | CSEM Centre Suisse d'Electronique et de Microtechnique SA | Device and method for spatially resolved photodetection and demodulation of modulated electromagnetic waves |
US6640202B1 (en) | 2000-05-25 | 2003-10-28 | International Business Machines Corporation | Elastic sensor mesh system for 3-dimensional measurement, mapping and kinematics applications |
US6731799B1 (en) | 2000-06-01 | 2004-05-04 | University Of Washington | Object segmentation with background extraction and moving boundary techniques |
US6735562B1 (en) | 2000-06-05 | 2004-05-11 | Motorola, Inc. | Method for estimating a confidence measure for a speech recognition system |
US6788809B1 (en) | 2000-06-30 | 2004-09-07 | Intel Corporation | System and method for gesture recognition in three dimensions using stereo imaging and color vision |
US7227526B2 (en) | 2000-07-24 | 2007-06-05 | Gesturetek, Inc. | Video-based image control system |
AU2001296459A1 (en) * | 2000-10-02 | 2002-04-15 | Clarity, L.L.C. | Audio visual speech processing |
US7058204B2 (en) | 2000-10-03 | 2006-06-06 | Gesturetek, Inc. | Multiple camera control system |
US7039676B1 (en) | 2000-10-31 | 2006-05-02 | International Business Machines Corporation | Using video image analysis to automatically transmit gestures over a network in a chat or instant messaging session |
US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US6539931B2 (en) | 2001-04-16 | 2003-04-01 | Koninklijke Philips Electronics N.V. | Ball throwing assistant |
JP3771812B2 (ja) * | 2001-05-28 | 2006-04-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ロボットおよびその制御方法 |
US8035612B2 (en) | 2002-05-28 | 2011-10-11 | Intellectual Ventures Holding 67 Llc | Self-contained interactive video display system |
US7259747B2 (en) | 2001-06-05 | 2007-08-21 | Reactrix Systems, Inc. | Interactive video display system |
JP3420221B2 (ja) | 2001-06-29 | 2003-06-23 | 株式会社コナミコンピュータエンタテインメント東京 | ゲーム装置及びプログラム |
DE10133126A1 (de) * | 2001-07-07 | 2003-01-16 | Philips Corp Intellectual Pty | Richtungssensitives Audioaufnahmesystem mit Anzeige von Aufnahmegebiet und/oder Störquelle |
US6937742B2 (en) | 2001-09-28 | 2005-08-30 | Bellsouth Intellectual Property Corporation | Gesture activated home appliance |
JP2003131683A (ja) * | 2001-10-22 | 2003-05-09 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
US6807529B2 (en) * | 2002-02-27 | 2004-10-19 | Motorola, Inc. | System and method for concurrent multimodal communication |
EP1497160B2 (de) | 2002-04-19 | 2010-07-21 | IEE INTERNATIONAL ELECTRONICS & ENGINEERING S.A. | Sicherheitsvorrichtung für ein fahrzeug |
US7710391B2 (en) | 2002-05-28 | 2010-05-04 | Matthew Bell | Processing an image utilizing a spatially varying pattern |
US7348963B2 (en) | 2002-05-28 | 2008-03-25 | Reactrix Systems, Inc. | Interactive video display system |
US7170492B2 (en) | 2002-05-28 | 2007-01-30 | Reactrix Systems, Inc. | Interactive video display system |
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7489812B2 (en) | 2002-06-07 | 2009-02-10 | Dynamic Digital Depth Research Pty Ltd. | Conversion and encoding techniques |
US6882971B2 (en) * | 2002-07-18 | 2005-04-19 | General Instrument Corporation | Method and apparatus for improving listener differentiation of talkers during a conference call |
US20040037450A1 (en) * | 2002-08-22 | 2004-02-26 | Bradski Gary R. | Method, apparatus and system for using computer vision to identify facial characteristics |
JP3910898B2 (ja) * | 2002-09-17 | 2007-04-25 | 株式会社東芝 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
US7046300B2 (en) * | 2002-11-29 | 2006-05-16 | International Business Machines Corporation | Assessing consistency between facial motion and speech signals in video |
US7576727B2 (en) | 2002-12-13 | 2009-08-18 | Matthew Bell | Interactive directed light/sound system |
US20090030552A1 (en) * | 2002-12-17 | 2009-01-29 | Japan Science And Technology Agency | Robotics visual and auditory system |
US6993482B2 (en) * | 2002-12-18 | 2006-01-31 | Motorola, Inc. | Method and apparatus for displaying speech recognition results |
US20040119754A1 (en) * | 2002-12-19 | 2004-06-24 | Srinivas Bangalore | Context-sensitive interface widgets for multi-modal dialog systems |
EP1443498B1 (en) * | 2003-01-24 | 2008-03-19 | Sony Ericsson Mobile Communications AB | Noise reduction and audio-visual speech activity detection |
JP4235729B2 (ja) | 2003-02-03 | 2009-03-11 | 国立大学法人静岡大学 | 距離画像センサ |
US7762665B2 (en) * | 2003-03-21 | 2010-07-27 | Queen's University At Kingston | Method and apparatus for communication between humans and devices |
US8745541B2 (en) * | 2003-03-25 | 2014-06-03 | Microsoft Corporation | Architecture for controlling a computer using hand gestures |
DE602004006190T8 (de) | 2003-03-31 | 2008-04-10 | Honda Motor Co., Ltd. | Vorrichtung, Verfahren und Programm zur Gestenerkennung |
US8072470B2 (en) | 2003-05-29 | 2011-12-06 | Sony Computer Entertainment Inc. | System and method for providing a real-time three-dimensional interactive environment |
US7372977B2 (en) | 2003-05-29 | 2008-05-13 | Honda Motor Co., Ltd. | Visual tracking using depth data |
US7620202B2 (en) | 2003-06-12 | 2009-11-17 | Honda Motor Co., Ltd. | Target orientation estimation using depth sensing |
US7251603B2 (en) * | 2003-06-23 | 2007-07-31 | International Business Machines Corporation | Audio-only backoff in audio-visual speech recognition system |
US7343289B2 (en) * | 2003-06-25 | 2008-03-11 | Microsoft Corp. | System and method for audio/video speaker detection |
US7428000B2 (en) * | 2003-06-26 | 2008-09-23 | Microsoft Corp. | System and method for distributed meetings |
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
US7536032B2 (en) | 2003-10-24 | 2009-05-19 | Reactrix Systems, Inc. | Method and system for processing captured image information in an interactive video display system |
JP4516527B2 (ja) * | 2003-11-12 | 2010-08-04 | 本田技研工業株式会社 | 音声認識装置 |
US7580570B2 (en) | 2003-12-09 | 2009-08-25 | Microsoft Corporation | Accuracy model for recognition signal processing engines |
CN100573548C (zh) | 2004-04-15 | 2009-12-23 | 格斯图尔泰克股份有限公司 | 跟踪双手运动的方法和设备 |
US7308112B2 (en) | 2004-05-14 | 2007-12-11 | Honda Motor Co., Ltd. | Sign based human-machine interaction |
US7704135B2 (en) | 2004-08-23 | 2010-04-27 | Harrison Jr Shelton E | Integrated game system, method, and device |
US7684988B2 (en) * | 2004-10-15 | 2010-03-23 | Microsoft Corporation | Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models |
JP4157581B2 (ja) * | 2004-12-03 | 2008-10-01 | 本田技研工業株式会社 | 音声認識装置 |
KR20060070280A (ko) | 2004-12-20 | 2006-06-23 | 한국전자통신연구원 | 손 제스처 인식을 이용한 사용자 인터페이스 장치 및 그방법 |
JP4204541B2 (ja) * | 2004-12-24 | 2009-01-07 | 株式会社東芝 | 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム |
JP2008537190A (ja) | 2005-01-07 | 2008-09-11 | ジェスチャー テック,インコーポレイテッド | 赤外線パターンを照射することによる対象物の三次元像の生成 |
EP3693889A3 (en) | 2005-01-07 | 2020-10-28 | QUALCOMM Incorporated | Detecting and tracking objects in images |
EP1849123A2 (en) | 2005-01-07 | 2007-10-31 | GestureTek, Inc. | Optical flow based tilt sensor |
US7450698B2 (en) * | 2005-01-14 | 2008-11-11 | At&T Intellectual Property 1, L.P. | System and method of utilizing a hybrid semantic model for speech recognition |
JP5631535B2 (ja) | 2005-02-08 | 2014-11-26 | オブロング・インダストリーズ・インコーポレーテッド | ジェスチャベースの制御システムのためのシステムおよび方法 |
US7317836B2 (en) | 2005-03-17 | 2008-01-08 | Honda Motor Co., Ltd. | Pose estimation based on critical point analysis |
US20060227237A1 (en) * | 2005-03-31 | 2006-10-12 | International Business Machines Corporation | Video surveillance system and method with combined video and audio recognition |
KR101430761B1 (ko) | 2005-05-17 | 2014-08-19 | 퀄컴 인코포레이티드 | 방위-감응 신호 출력 |
EP1752748B1 (en) | 2005-08-12 | 2008-10-29 | MESA Imaging AG | Highly sensitive, fast pixel for use in an image sensor |
US20080026838A1 (en) | 2005-08-22 | 2008-01-31 | Dunstan James E | Multi-player non-role-playing virtual world games: method for two-way interaction between participants and multi-player virtual world games |
US7949529B2 (en) * | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US7697827B2 (en) * | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US7450736B2 (en) | 2005-10-28 | 2008-11-11 | Honda Motor Co., Ltd. | Monocular tracking of 3D human motion with a coordinated mixture of factor analyzers |
JP4557919B2 (ja) * | 2006-03-29 | 2010-10-06 | 株式会社東芝 | 音声処理装置、音声処理方法および音声処理プログラム |
US7701439B2 (en) | 2006-07-13 | 2010-04-20 | Northrop Grumman Corporation | Gesture recognition simulation system and method |
JP2008058409A (ja) * | 2006-08-29 | 2008-03-13 | Aisin Aw Co Ltd | 音声認識方法及び音声認識装置 |
JP5395323B2 (ja) | 2006-09-29 | 2014-01-22 | ブレインビジョン株式会社 | 固体撮像素子 |
DE602006005493D1 (de) * | 2006-10-02 | 2009-04-16 | Harman Becker Automotive Sys | Sprachsteuerung von Fahrzeugelementen von außerhalb einer Fahrzeugkabine |
US7412077B2 (en) | 2006-12-29 | 2008-08-12 | Motorola, Inc. | Apparatus and methods for head pose estimation and head gesture detection |
US20080165388A1 (en) * | 2007-01-04 | 2008-07-10 | Bertrand Serlet | Automatic Content Creation and Processing |
US7729530B2 (en) | 2007-03-03 | 2010-06-01 | Sergey Antonov | Method and apparatus for 3-D data input to a personal computer with a multimedia oriented operating system |
US20110054899A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Command and control utilizing content information in a mobile voice-to-speech application |
WO2008122974A1 (en) * | 2007-04-06 | 2008-10-16 | Technion Research & Development Foundation Ltd. | Method and apparatus for the use of cross modal association to isolate individual media sources |
KR20080111290A (ko) * | 2007-06-18 | 2008-12-23 | 삼성전자주식회사 | 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법 |
US7852262B2 (en) | 2007-08-16 | 2010-12-14 | Cybernet Systems Corporation | Wireless mobile indoor/outdoor tracking system |
US8024185B2 (en) * | 2007-10-10 | 2011-09-20 | International Business Machines Corporation | Vocal command directives to compose dynamic display text |
ATE456130T1 (de) * | 2007-10-29 | 2010-02-15 | Harman Becker Automotive Sys | Partielle sprachrekonstruktion |
US8249867B2 (en) * | 2007-12-11 | 2012-08-21 | Electronics And Telecommunications Research Institute | Microphone array based speech recognition system and target speech extracting method of the system |
US8140335B2 (en) * | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
KR100988397B1 (ko) * | 2008-06-09 | 2010-10-19 | 엘지전자 주식회사 | 이동 단말기 및 그의 텍스트 수정방법 |
US8315366B2 (en) * | 2008-07-22 | 2012-11-20 | Shoretel, Inc. | Speaker identification and representation for a phone |
CN201254344Y (zh) | 2008-08-20 | 2009-06-10 | 中国农业科学院草原研究所 | 植物标本及种子存贮器 |
CN101350931B (zh) * | 2008-08-27 | 2011-09-14 | 华为终端有限公司 | 音频信号的生成、播放方法及装置、处理系统 |
JP5247384B2 (ja) * | 2008-11-28 | 2013-07-24 | キヤノン株式会社 | 撮像装置、情報処理方法、プログラムおよび記憶媒体 |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
TW201032087A (en) * | 2009-02-19 | 2010-09-01 | Asustek Comp Inc | Command control system and method thereof |
US8326637B2 (en) * | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US8174932B2 (en) * | 2009-06-11 | 2012-05-08 | Hewlett-Packard Development Company, L.P. | Multimodal object localization |
US8380501B2 (en) * | 2009-08-05 | 2013-02-19 | Siemens Industry, Inc. | Parcel address recognition by voice and image through operational rules |
JP5617083B2 (ja) * | 2009-09-03 | 2014-11-05 | 本田技研工業株式会社 | コマンド認識装置、コマンド認識方法、及びコマンド認識ロボット |
US20110107216A1 (en) * | 2009-11-03 | 2011-05-05 | Qualcomm Incorporated | Gesture-based user interface |
US8265341B2 (en) * | 2010-01-25 | 2012-09-11 | Microsoft Corporation | Voice-body identity correlation |
US8296151B2 (en) * | 2010-06-18 | 2012-10-23 | Microsoft Corporation | Compound gesture-speech commands |
US9401058B2 (en) * | 2012-01-30 | 2016-07-26 | International Business Machines Corporation | Zone based presence determination via voiceprint location awareness |
-
2010
- 2010-01-22 US US12/692,538 patent/US8676581B2/en active Active
-
2011
- 2011-01-21 CN CN2011100311666A patent/CN102136269B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5930383A (en) * | 1996-09-24 | 1999-07-27 | Netzer; Yishay | Depth sensing camera systems and methods |
US6243683B1 (en) * | 1998-12-29 | 2001-06-05 | Intel Corporation | Video control of speech recognition |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
CN1997161A (zh) * | 2006-12-30 | 2007-07-11 | 华为技术有限公司 | 一种视频终端以及一种音频码流处理方法 |
CN101068308A (zh) * | 2007-05-10 | 2007-11-07 | 华为技术有限公司 | 一种控制图像采集装置进行目标定位的系统及方法 |
CN101330585A (zh) * | 2007-06-20 | 2008-12-24 | 深圳Tcl新技术有限公司 | 一种声音定位的方法及系统 |
CN101355666A (zh) * | 2007-07-27 | 2009-01-28 | 深圳Tcl新技术有限公司 | 一种声音定位的系统 |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11755936B2 (en) | 2011-08-26 | 2023-09-12 | Google Llc | Systems and methods for determining that a media item is being presented |
US11216740B2 (en) | 2011-08-26 | 2022-01-04 | Google Llc | Systems and methods for determining that a media item is being presented |
CN107911743A (zh) * | 2011-08-26 | 2018-04-13 | 谷歌有限责任公司 | 用于确定媒体项正被呈现的置信水平的系统和方法 |
CN103188549A (zh) * | 2011-12-28 | 2013-07-03 | 宏碁股份有限公司 | 视频播放装置及其操作方法 |
US9641507B2 (en) | 2012-02-01 | 2017-05-02 | International Business Machines Corporation | Virtual avatar authentication |
CN103294939A (zh) * | 2012-02-01 | 2013-09-11 | 国际商业机器公司 | 用于虚拟化身认证的方法和系统 |
CN103294939B (zh) * | 2012-02-01 | 2016-03-09 | 国际商业机器公司 | 用于虚拟化身认证的方法和系统 |
CN103578468A (zh) * | 2012-08-01 | 2014-02-12 | 联想(北京)有限公司 | 一种语音识别中置信度阈值的调整方法及电子设备 |
CN103578468B (zh) * | 2012-08-01 | 2017-06-27 | 联想(北京)有限公司 | 一种语音识别中置信度阈值的调整方法及电子设备 |
CN102945672B (zh) * | 2012-09-29 | 2013-10-16 | 深圳市国华识别科技开发有限公司 | 一种多媒体设备语音控制系统及方法 |
CN102945672A (zh) * | 2012-09-29 | 2013-02-27 | 深圳市国华识别科技开发有限公司 | 一种多媒体设备语音控制系统及方法 |
CN104823234A (zh) * | 2012-10-26 | 2015-08-05 | 微软技术许可有限责任公司 | 利用深度成像扩充语音识别 |
US10720155B2 (en) | 2013-06-27 | 2020-07-21 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
US11600271B2 (en) | 2013-06-27 | 2023-03-07 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
CN105556592A (zh) * | 2013-06-27 | 2016-05-04 | 亚马逊技术股份有限公司 | 检测自我生成的唤醒声调 |
US11568867B2 (en) | 2013-06-27 | 2023-01-31 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
CN104345649A (zh) * | 2013-08-09 | 2015-02-11 | 晨星半导体股份有限公司 | 应用于声控装置的控制器与相关方法 |
CN104679768A (zh) * | 2013-11-29 | 2015-06-03 | 百度在线网络技术(北京)有限公司 | 从文档中提取关键词的方法和设备 |
CN104679768B (zh) * | 2013-11-29 | 2019-08-09 | 百度在线网络技术(北京)有限公司 | 从文档中提取关键词的方法和设备 |
CN107077847A (zh) * | 2014-11-03 | 2017-08-18 | 微软技术许可有限责任公司 | 关键短语用户识别的增强 |
US11270695B2 (en) | 2014-11-03 | 2022-03-08 | Microsoft Technology Licensing, Llc | Augmentation of key phrase user recognition |
CN107077847B (zh) * | 2014-11-03 | 2020-11-10 | 微软技术许可有限责任公司 | 关键短语用户识别的增强 |
CN107430395B (zh) * | 2014-12-29 | 2019-11-19 | Abb瑞士股份有限公司 | 用于识别与加工厂中的条件关联的事件序列的方法 |
CN107430395A (zh) * | 2014-12-29 | 2017-12-01 | Abb瑞士股份有限公司 | 用于识别与加工厂中的条件关联的事件序列的方法 |
CN105812969A (zh) * | 2014-12-31 | 2016-07-27 | 展讯通信(上海)有限公司 | 一种拾取声音信号的方法、系统及装置 |
CN109791616A (zh) * | 2016-06-14 | 2019-05-21 | O·内策尔 | 自动语音识别 |
CN106599866B (zh) * | 2016-12-22 | 2020-06-02 | 上海百芝龙网络科技有限公司 | 一种多维度用户身份识别方法 |
CN106599866A (zh) * | 2016-12-22 | 2017-04-26 | 上海百芝龙网络科技有限公司 | 一种多维度用户身份识别方法 |
CN109145285B (zh) * | 2017-06-19 | 2023-01-31 | 通用汽车环球科技运作有限责任公司 | 短语提取文本分析方法和系统 |
CN109145285A (zh) * | 2017-06-19 | 2019-01-04 | 通用汽车环球科技运作有限责任公司 | 短语提取文本分析方法和系统 |
CN109200578A (zh) * | 2017-06-30 | 2019-01-15 | 电子技术公司 | 用于视频游戏的交互式语音控制的伴随应用 |
CN109200578B (zh) * | 2017-06-30 | 2021-10-22 | 电子技术公司 | 用于视频游戏的交互式语音控制的伴随应用 |
US11077361B2 (en) | 2017-06-30 | 2021-08-03 | Electronic Arts Inc. | Interactive voice-controlled companion application for a video game |
CN110663021A (zh) * | 2017-11-06 | 2020-01-07 | 谷歌有限责任公司 | 关注出席用户的方法和系统 |
CN110663021B (zh) * | 2017-11-06 | 2024-02-02 | 谷歌有限责任公司 | 关注出席用户的方法和系统 |
CN109031961A (zh) * | 2018-06-29 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 用于控制操作对象的方法和装置 |
CN111128146A (zh) * | 2018-10-30 | 2020-05-08 | 英飞凌科技股份有限公司 | 用于用户交互的改进设备 |
CN110058892A (zh) * | 2019-04-29 | 2019-07-26 | Oppo广东移动通信有限公司 | 电子设备交互方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US8676581B2 (en) | 2014-03-18 |
US20110184735A1 (en) | 2011-07-28 |
CN102136269B (zh) | 2013-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102136269B (zh) | 经由标识信息的语音识别分析 | |
US11270695B2 (en) | Augmentation of key phrase user recognition | |
US11699442B2 (en) | Methods and systems for speech detection | |
US20210249012A1 (en) | Systems and methods for operating an output device | |
CN108696765B (zh) | 视频播放中的辅助输入方法及装置 | |
EP4002363A1 (en) | Method and apparatus for detecting an audio signal, and storage medium | |
CN112634911B (zh) | 人机对话方法、电子设备及计算机可读存储介质 | |
US20210225363A1 (en) | Information processing device and information processing method | |
CN113113009A (zh) | 多模态语音唤醒和打断方法及装置 | |
US11398221B2 (en) | Information processing apparatus, information processing method, and program | |
CN112700767A (zh) | 人机对话打断方法及装置 | |
US20200090663A1 (en) | Information processing apparatus and electronic device | |
CN113301352B (zh) | 在视频播放期间进行自动聊天 | |
CN110197663B (zh) | 一种控制方法、装置及电子设备 | |
Nock et al. | Multimodal processing by finding common cause | |
CN111078890B (zh) | 一种生字词的收集方法及电子设备 | |
CN111971670B (zh) | 在对话中生成响应 | |
US20210082427A1 (en) | Information processing apparatus and information processing method | |
CN113066513B (zh) | 语音数据处理方法、装置、电子设备及存储介质 | |
US10832040B2 (en) | Cognitive rendering of inputs in virtual reality environments | |
KR20240099616A (ko) | 끼어들기 기능을 갖는 음성인식장치 및 방법 | |
JP2022147989A (ja) | 発話制御装置、発話制御方法及び発話制御プログラム | |
King | Speaking naturally? It depends who is listening. | |
CN113573143A (zh) | 音频播放方法和电子设备 | |
CN114979549A (zh) | 在线会议的隐私保护方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150508 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20150508 Address after: Washington State Patentee after: Micro soft technique license Co., Ltd Address before: Washington State Patentee before: Microsoft Corp. |