CN102136269A - 经由标识信息的语音识别分析 - Google Patents

经由标识信息的语音识别分析 Download PDF

Info

Publication number
CN102136269A
CN102136269A CN2011100311666A CN201110031166A CN102136269A CN 102136269 A CN102136269 A CN 102136269A CN 2011100311666 A CN2011100311666 A CN 2011100311666A CN 201110031166 A CN201110031166 A CN 201110031166A CN 102136269 A CN102136269 A CN 102136269A
Authority
CN
China
Prior art keywords
data
voice segments
discerning
putting
discerned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100311666A
Other languages
English (en)
Other versions
CN102136269B (zh
Inventor
J·弗莱克斯
D·霍金斯
C·克莱恩
M·S·德尼斯
T·莱瓦德
A·M·瓦塞尔
D·麦克凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102136269A publication Critical patent/CN102136269A/zh
Application granted granted Critical
Publication of CN102136269B publication Critical patent/CN102136269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1081Input via voice recognition
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1087Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals comprising photodetecting means, e.g. a camera
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing
    • A63F2300/6072Methods for processing data by generating or executing the game program for sound processing of an input signal, e.g. pitch and rhythm extraction, voice recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/22Source localisation; Inverse modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明描述了一种经由标识信息的语音识别分析的方法和系统。所公开的各实施例涉及使用身份信息来帮助避免在语音识别系统中发生假肯定语音识别事件。一个实施例提供了一种方法,该方法包括接收语音识别数据,该语音识别数据包括所识别的语音段、经由来自麦克风阵列的信号所确定的与所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据,并且还接收包括与图像中的每个人的位置有关的视觉位置信息的图像数据。将声学位置数据与视觉位置数据进行比较来确定所识别的语音段是否源自图像传感器的视场中的人,并且基于该确定来调整置信数据。

Description

经由标识信息的语音识别分析
技术领域
本发明涉及语音识别技术,尤其涉及一种经由标识信息的语音识别分析的方法和系统。
背景技术
语音识别技术允许计算设备的用户经由语音命令而非经由键盘或其他外围设备输入设备来作出输入。不同的语音识别系统共有的一个困难在于将预期语音输入与其他所接收的声音辨别开来,这些声音包括但不限于,背景噪声、背景语音、以及来自当前系统用户的不旨在成为输入的语音。
提出了将预期语音输入与其他声音辨别开来的各种方法。例如,某些语音输入系统在接受任何语音并将其作为输入进行分析之前要求用户说出一个特定命令,诸如“开始收听”。然而,这些系统可能仍然易于受到随机地匹配所识别的语音模式并因此被解释为输入的背景噪声的影响。这种“假肯定”可能导致语音识别系统执行用户未期望的动作,或者甚至在没有用户在场的情况下执行动作。
发明内容
因此,本文公开了涉及使用身份信息来帮助避免在语音识别系统中发生假肯定语音识别事件的各种实施例。例如,一个所公开的实施例提供了一种操作语音识别输入系统的方法。该方法包括接收语音识别数据,该语音识别数据包括所识别的语音段、经由来自麦克风阵列的信号所确定的与所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据,并且还接收包括与位于图像传感器的视场中的每一个人的位置有关的视觉位置信息的图像数据。将声学位置数据与视觉位置数据进行比较来确定所识别的语音段是否源自图像传感器的视场中的人。该方法还包括基于所识别的语音段是否被确定为源自图像传感器的视场中的人来调整置信数据。
提供本发明内容是为了以简化的形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本发明的任一部分中提及的任何或所有缺点的实现。
附图说明
图1示出视频游戏环境形式的示例语音输入环境的一个实施例。
图2示出包括语音识别输入系统的计算系统的一个实施例的框图。
图3示出描绘了使用身份数据来分析语音输入的方法的一个实施例的流程图。
图4示出描绘了使用身份数据来分析语音输入的方法的另一实施例的流程图。
图5示出用于使用身份数据来分析语音输入的系统的一个实施例的框图。
图6示出了深度图像的帧的一个实施例的一部分的示意性描绘。
具体实施方式
本公开涉及避免语音识别输入系统中的假肯定语音识别。此外,所公开的各实施例还可以在语音识别系统环境中存在多个用户的情况下帮助确保语音识别事件源自所期望的用户。例如,在多个用户正在玩知识竞赛(game show)主题的视频游戏并且该游戏要求特定人回答特定问题的情况下,所公开的各实施例可以帮助阻塞其他用户喊叫的回答。可以理解,可以使用该语音识别输入系统来实现对任意合适的设备的语音输入。各示例包括但不限于,交互式娱乐系统,诸如视频游戏控制台、数字录像机、数字电视机和其他媒体播放器以及将这些功能中的两个或更多进行组合的设备。
图1示出交互式娱乐系统10形式的示例语音识别使用环境,该交互式娱乐系统10可以用于播放各种各样不同的游戏、播放一个或多个不同的媒体类型、和/或控制或操纵非游戏应用程序。交互式娱乐系统10包括被配置成在显示器104上显示图像的控制台102,显示器104被示为可以用于向一个或多个游戏玩家呈现游戏视觉形象的电视机。可以理解,图1中示出的示例实施例是出于说明的目的而呈现的,并且不旨在以任何方式进行限制。
娱乐系统10还包括具有深度感测照相机和麦克风阵列的输入设备100。深度感测照相机可以用于在视觉上监视娱乐系统10的一个或多个用户,而麦克风阵列可以用于由接收玩家作出的语音命令。使用麦克风阵列而非单个麦克风允许从音频数据中确定关于声音(例如,玩家说话)的源的位置的信息。
输入设备100所获取的数据允许玩家在不使用手持式控制器或其他远程设备的情况下作出输入。相反,语音输入、移动和/或其组合可以被娱乐系统10解释为可以用于影响娱乐系统10正在执行的游戏的控制命令。
游戏玩家108的移动和语音输入几乎可以被解释为任何类型的游戏控制命令。例如,图1中示出的示例场景示出游戏玩家108正在玩正由交互式娱乐系统10执行的拳击游戏。游戏系统使用电视机104来在视觉上向游戏玩家108呈现拳击对手110。此外,娱乐系统10还在视觉上呈现游戏玩家108用移动来控制的玩家化身112。例如,游戏玩家108可以在物理空间中挥重拳来作为对玩家化身112在游戏空间中挥重拳的指令。娱乐系统10和输入设备110可以用于识别和分析物理空间中游戏玩家108的重拳,从而使得该重拳可以被解释为使得游戏化身112在游戏空间中挥重拳的游戏控制命令。还可以使用语音命令来控制玩的各方面。
此外,某些移动和语音输入可以被解释为用作除了控制游戏化身112之外的目的的控制命令。例如,玩家可使用移动和/或语音命令来结束、暂停或保存游戏,选择级别,查看高分,与朋友通信等。所示出的拳击场景是作为示例来提供的,但决不意味着以任何方式进行限制。相反,所示出的场景旨在展示可以在不背离本公开的范围的情况下应用于各种各样不同的应用程序的一般概念。
图2示出了图1的实施例的框图。如上所述,输入设备100包括用于检测玩家运动的图像传感器,诸如深度感测照相机202,并且还包括检测来自玩家的语音输入的麦克风阵列204。深度感测照相机202可以利用用于确定照相机的视场中的目标对象(例如,玩家)的深度的任何合适的机制,包括但不限于结构化光机制。同样,麦克风阵列204可以具有任何合适数量和排列的麦克风。例如,在一个具体实施例中,麦克风阵列204可以具有四个麦克风,这四个麦克风在空间上被排列为避免来自源的声音实例在全部四个麦克风处进行破坏性干扰。在其他实施例中,输入设备100可以包括除了深度感测照相机之外的图像传感器。
输入设备100还包括包含可由处理器208执行以执行各种功能的指令的存储器206,这些功能与从深度感测照相机202和麦克风阵列204接收输入、处理这些输入、和/或将这些输入传递到控制台102有关。这些功能的各实施例将在下文中更详细地描述。控制台102同样包括其上存储有可由处理器212执行以执行与娱乐系统10的操作有关的各种功能的指令的存储器210,这些功能的各实施例将在下文中更详细地描述。
如上所述,语音识别系统可能难以将预期语音输入与诸如背景噪声、背景语音(即,不是源自当前用户的语音)等其他所接收的声音辨别开来。此外,语音识别系统可能还难以区分来自当前系统用户的、不旨在成为输入的语音。涉及用户发出诸如“开始收听”等特定语音命令来发起语音识别会话的当前方法可能遭受其中背景噪声随机地匹配这种语音模式的假肯定。另一种方法涉及利用照相机来检测当前用户的凝视以确定来自用户的语音是否旨在作为语音输入。然而,该方法依赖于在系统使用期间用户处在预期位置,并且因此在用户四处移动、用户可能在照相机的视野之外、和/或没有用户在场的动态使用环境中可能无效。
因此,图3示出描绘了用于操作语音识别输入系统的方法300的一个实施例的流程图。方法300包括在步骤302处接收语音识别数据。语音识别数据可以包括诸如所识别的语音段304、指示所识别的语音段的源的方向和/或位置的声学位置信息306、和/或表示所识别的语音段与其匹配的语音模式的匹配的确信度的置信值的置信数据308等数据。所识别的语音段304和置信数据308可以是各自从对麦克风阵列所接收的声音的分析来确定的,例如,通过经由数字音频处理将来自麦克风的信号组合成单个语音信号并随后执行语音识别分析。同样,声学位置信息306可以是经由对接收所识别的语音段的相对时刻的分析来从麦克风阵列的输出中确定的。用于这些过程中的每一个的各种技术是公知的。
接着,方法300包括在312处接收图像数据。图像数据可以包括例如经处理的图像数据,该图像数据最初由深度感测照相机接收并随后被处理来标识图像中的人或其他对象。在某些实施例中,图像中的个别像素或像素组可以用元数据来标记,该元数据表示在该像素处成像的对象的类型(例如,“玩家1”),并且还表示该对象相距输入设备的距离。该数据在图3中被示为“视觉位置信息”314。下面将更详细地描述这种图像数据的一个示例实施例。
在接收到语音识别数据和图像数据之后,方法300接着包括,在316处,将声学位置信息和视觉位置信息进行比较,并且在318处,基于所识别的语音段是否被确定为源自图像传感器视场中的人来调整置信数据。例如,如果确定所识别的语音段不是源自视野中的玩家,则可以降低置信值,或者可以将第二置信值添加到置信数据,其中该第二置信值是被配置成(在这种情况下)传达所识别的语音段来自活动用户的较低置信水平的预期输入置信值。同样,在确定所识别的语音段的确源自视野中的玩家的情况下,可以增大置信值或使其保持不变,或者可以将预期输入置信值添加到置信数据来传达所识别的语音段来自活动用户的较高置信水平。
在任一种情况下,可以将所识别的语音段和经修改的置信数据提供给应用程序以供使用。通过使用该数据,应用程序可以基于经修改的置信数据来决定是接受还是拒绝所识别的语音段。此外,在确定所识别的语音段很可能不旨在成为语音输入的某些情况下,方法300可以包括拒绝所识别的语音段,并因此不将其传递给应用程序。在这种情况下,对所识别的语音段的这种拒绝可以被认为是将置信水平调整到低于最低置信阈值的水平。可以理解,以上给出的用于调整置信数据的特定示例是出于说明的目的而描述的,并且可以对置信值作出任何其他合适的调整。
在某些情况下,可以使用除了声学位置信息和视觉位置信息之外的其他信息来帮助确定所识别的语音段旨在成为输入的置信水平。图4示出描绘了利用可以用于帮助确定所识别的语义段是否旨在成为语音输入的数据的各种示例的方法400的一个实施例的流程图。此外,图5示出适用于执行方法400的系统500的一个实施例。
方法400包括在402处接收所识别的语音段和置信数据。如图5所示,这种信号可以作为来自音频处理流水线的输出来接收,该音频处理流水线被配置成经由模-数转换器(ADC)从麦克风阵列接收多个音频信号,如502处所指示的。所示出的音频处理流水线实施例包括由框504概括地示出的一个或多个数字音频处理阶段,并且还包括语音识别阶段506。
数字音频处理阶段504可以被配置成对数字化麦克风信号执行任何合适的数字音频处理。例如,数字音频处理阶段504可以被配置成移除噪声、将四个麦克风信号组合成单个音频信号、以及输出包括关于从其接收语音输入的方向和/或位置的信息的声学位置信息507。语音识别阶段506如上所述地可被配置成将从数字音频处理阶段504接收的输入与多个所识别的语音模式进行比较从而试图识别语音输入。语音识别阶段506随后可以将所识别的语音段以及每一所识别的语音段的置信数据输出到意图确定阶段508。此外,意图确定阶段508还可以从数字音频处理阶段504接收声学位置信息。可以理解,在某些实施例中,声学位置信息可以经由语音识别阶段506来接收或者接收自任何其他合适的组件。
回头参考图4,方法400接着包括确定所识别的语音段是否源自图像传感器的视野中的玩家。该确定可以按任何合适的方式作出。例如,再次参考图5,来自深度感测照相机的图像数据可以由将这种视频处理执行为骨架跟踪的视频处理阶段510来接收。
视频处理阶段510可以输出任何合适的数据,包括但不限于,包含从骨架跟踪分析中确定的关于每一像素处的对象的位置和深度的信息的合成深度图像。图6示出合成深度图像600的一个示例实施例的一部分中包含的数据的示意图。合成深度图像600包括多个像素,每一像素包括图像数据和包含经由骨架跟踪所确定的关于位于图像中的人的信息的相关联元数据。例如,第一像素602包括第一组元数据604。第一组元数据604从上到下被示为包括,像素索引(被示为[x,y]坐标)、指示图像中的人的身体部位的深度的深度值(例如,与深度感测照相机相距的距离)、身体部位标识(此处被概括地示为“bp 4”或身体部位4)、以及玩家号(“P1”或玩家1)。此外,看到第二像素606包括第二组元数据608。将第一组元数据604和第二组元数据608进行比较,可以看到第一像素602和第二像素606被标识为在与深度感测照相机相距不同的距离处成像不同的身体部位。因此,经处理的图像数据包括与深度感测照相机的视场中的每一个人的距离有关的视觉位置信息。
再次参考图4,在404处,可以将这种视觉位置信息与声学位置信息进行比较来帮助确定所识别的语音段是否源自深度感测照相机或其他图像传感器的视场中的玩家。如果确定所识别的语音段不是源自深度感测照相机的视场中的玩家,则方法400包括在406处确定所识别的语音段源自的人是否可以通过话音来标识。这可以按任何合适的方式来执行。例如,再次参考图5,交互式娱乐系统可以维护用户话音模式514的数据库(例如,可以要求系统的每一个新用户输入话音样本来允许系统维护用户的话音模式的记录)来允许通过话音对用户的后续标识。回头参考图4,如果确定所识别的语音段不是源自视野中的玩家并且说话者无法通过话音来标识,则方法400包括拒绝所识别的语音段,如408处所示。在该实例中,不将所识别的声音段传递给应用程序以供使用。另一方面,如果说话者可以通过话音来标识,则在510处修改置信数据来反映所识别的语音输入旨在成为输入的置信度的降低。可以理解,在说话者不在深度感测照相机的视场中并且不能通过话音来标识的其他实施例中,可以不拒绝所识别的语音段,但可以改为修改置信数据。
返回到过程404,如果确定所识别的语音段源自深度感测照相机的视场中的人,则方法400包括在412处确定该人是否面向深度感测照相机。这可以包括,例如,确定视觉位置数据是否指示了该玩家的任何面部特征(例如,眼睛、鼻子、嘴巴、整张脸等)是可见的。这种确定可以是有用的,例如,用于在用户正与另一用户并排坐着并与其谈话(即,非活动用户作出的语音)和用户正在作出语音输入(即,活动用户作出的语音)之间进行区分。如果在412处确定用户未面向照相机,则方法400包括在414处调整置信数据来反映所识别的语音输入旨在成为输入的置信度的降低。另一方面,如果确定该用户正面向照相机,则不调整置信数据。可以理解,在其他实施例中,可以对置信数据作出除了此处描述的调整之外的任何其他合适的调整来反映从412处的确定所导致的不同的置信水平。
接着在416处,确定所识别的语音段源自的人是否可以通过话音来标识。如上对过程406所描述的,这可以按任何合适的方式来执行,诸如通过咨询用户话音模式514的数据库。如果确定所识别的语音段不是源自视野中的玩家并且说话者不能通过话音来标识,则方法400包括在418处调整置信数据来反映所识别的语音输入旨在成为输入的置信度的降低。另一方面,如果确定用户正面向照相机,则不调整置信数据。可以理解,在其他实施例中,可以对置信数据作出除了此处描述的调整之外的任何其他合适的调整来反映从416处的确定所导致的不同的置信水平。
方法400接着包括在420处确定用户的语音输入是否包含所识别的关键词。该所识别的关键词可以是被认为是指示后续语音很可能旨在作为语音输入的词语或短语,并且可以将该所识别的关键词存储在数据库中,如图5中516处所指示的。如果在420处确定所识别的语音段领先于在预定时间窗口中接收的关键词,则方法400包括在422处调整置信数据。另一方面,如果确定在预定时间窗口中的关键词领先于所识别的语音段,则方法400包括基于在接收到关键词和所识别的语音段之间经过的时间量来调整置信数据。例如,在某些实施例中,所应用的调整的大小可以遵循作为时间函数的衰减型曲线,从而使得该调整反映了随着在接收到关键词和接收到所识别的语音段之间经过的时间越多而渐进地减少的置信度。在其他实施例中,调整在本质上可以是二进制的或者步进式的,从而使得不对置信数据作出调整直到接收到关键词和接收到所识别的语音段之间经过的时间达到预定时间量。可以理解,依赖时间的调整的这些示例是出于说明的目的而描述的,并且不旨在以任何方式进行限制。
还可以理解,图4中示出的过程的示例和次序是出于示例的目的而呈现的,并不旨在进行限制。在其他实施例中,对用户作出语音输入的意图的确定可以仅利用所示出的过程的子集和/或利用未示出的附加过程。此外,这些过程可以按照任何合适的次序来应用。
可以明白,此处所描述的计算设备可以是被配置成执行此处所描述的程序的任何合适的计算设备。例如,计算设备可以是大型计算机、个人计算机、膝上型计算机、便携式数据助理(PDA)、机顶盒、游戏控制台、启用计算机的无线电话、联网计算设备,或其他合适的计算设备,并可以经由诸如因特网等计算机网络彼此连接。这些计算设备通常包括处理器以及相关联的易失性和非易失性存储器,并被配置成使用易失性存储器的各部分和处理器来执行存储在非易失性存储器中的程序。如此处所使用的,术语“程序”指的是可由此处所描述的一个或多个计算设备执行或利用的软件或固件组件,并且意味着包含单独的或各组可执行文件、数据文件、库、驱动程序、脚本、数据库记录等等。可以理解,可以提供其上存储有程序指令的计算机可读存储介质,该程序指令在由计算设备执行时使该计算设备执行上文所描述的方法并使得操作上述系统。
应该理解,此处所述的配置和/或方法在本质上示例性的,且这些具体实施例或示例不是局限性的,因为多个变体是可能。此处所述的具体例程或方法可表示任何数量的处理策略中的一个或多个。由此,所示出的各个动作可以按所示顺序执行、按其他顺序执行、并行地执行、或者在某些情况下省略。同样,可以改变上述过程的次序。
本发明的主题包括各种过程、系统和配置的所有新颖和非显而易见的组合和子组合、和此处所公开的其它特征、功能、动作、和/或特性、以及其任何和全部等效方案。

Claims (15)

1.一种在包括麦克风阵列和图像传感器的计算系统中操作语音识别输入系统的方法(300),所述方法包括:
接收(302)语音识别数据,所述语音识别数据包括所识别的语音段、经由来自所述麦克风阵列的信号确定的与所述所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据;
接收(312)包括与位于所述图像传感器的视场中的每个人的位置有关的视觉位置信息的图像数据;
将所述声学位置数据与所述视觉位置数据进行比较(316)来确定所述所识别的语音段是否源自所述图像传感器的所述视场中的人;以及
基于所述所识别的语音段是否被确定为源自所述图像传感器的所述视场中的人来调整(318)所述置信数据。
2.如权利要求1所述的方法,其特征在于,调整所述置信数据包括降低所述识别置信值。
3.如权利要求1所述的方法,其特征在于,调整所述置信数据包括确定被配置成传达所述所识别的语音段是否来自活动用户的置信水平的预期输入置信值。
4.如权利要求1所述的方法,其特征在于,还包括基于所述所识别的语音段是否被确定为源自所识别的说话者来调整所述置信数据。
5.如权利要求1所述的方法,其特征在于,如果所述所识别的语音段被确定为不是源自所识别的说话者并且被确定为不是源自所述图像传感器的所述视场中的人,则调整所述置信数据包括拒绝所述所识别的语音段。
6.如权利要求1所述的方法,其特征在于,如果确定所述所识别的语音段源自所述图像传感器的所述视场中的人,则在随后确定所述人的脸部是否面向所述图像传感器,并且基于所述人的脸部是否面向所述图像传感器来调整所述置信数据。
7.如权利要求1所述的方法,其特征在于,还包括在接收所述所识别的语音段之前接收关键词的语音输入,并且其中调整所述置信数据包括基于在接收到所述关键词的语音输入和接收到所述所识别的语音段之间经过的时间量来调整所述置信数据。
8.如权利要求1所述的方法,其特征在于,所述图像传感器是深度感测照相机,并且其中接收包含视觉位置信息的图像数据包括接收包含与所述深度感测照相机的所述视场中的每个人的距离有关的信息的图像数据。
9.一种交互式娱乐系统(200),包括:
深度感测照相机(202);
包括多个麦克风的麦克风阵列(204)以及
计算设备(102),所述计算设备包括处理器(210)和其上包含有指令的存储器(212),所述指令可以由所述处理器执行以:
接收包括语音识别数据,所述语音识别数据包括所识别的语音段、经由来自所述麦克风阵列(204)的信号确定的与所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据;
接收包括与位于所述深度感测照相机(202)的视场中的每个人的位置有关的视觉位置信息的图像数据;
将所述声学位置数据与所述视觉位置数据进行比较以确定所述所识别的语音段是否源自所述深度感测照相机(202)的所述视场中的人;以及
基于所述所识别的语音段是否被确定为源自所述深度感测照相机(202)的所述视场中的人来调整所述置信数据。
10.如权利要求9所述的交互式娱乐系统,其特征在于,所述指令可被执行来通过降低所述识别置信值来调整所述置信数据。
11.如权利要求9所述的交互式娱乐系统,其特征在于,所述指令可被执行来通过确定并包括被配置成传达所述所识别的语音段是否来自活动用户的置信水平的预期输入置信值来调整所述置信数据。
12.如权利要求9所述的交互式娱乐系统,其特征在于,所述指令还可被执行以:
确定所述所识别的语音段是否源自所识别的说话者,以及
基于所述所识别的语音段被确定为源自所识别的说话者来调整所述置信数据。
13.如权利要求12所述的交互式娱乐系统,其特征在于,所述指令还可被执行以执行以下动作:如果所述所识别的语音段被确定为不是源自所识别的说话者并且所述所识别的语音段被确定为不是源自所述深度感测照相的所述视场中的人,则拒绝所述所识别的语音段。
14.如权利要求9所述的交互式娱乐系统,其特征在于,所述指令还可被执行以:
确定所述所识别的语音段源自所述图像传感器的所述视场中的人,
确定所述人的脸是否面向所述图像传感器,以及
基于所述人的脸是否面向所述图像传感器来调整所述置信数据。
15.如权利要求9所述的交互式娱乐设备,其特征在于,还包括在接收所述所识别的语音段之前接收关键词的语音输入,并且其中调整所述置信数据包括基于在接收到所述关键词的语音输入和接收到所述所识别的语音段之间经过的时间量来调整所述置信数据。
CN2011100311666A 2010-01-22 2011-01-21 经由标识信息的语音识别分析 Active CN102136269B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/692,538 2010-01-22
US12/692,538 US8676581B2 (en) 2010-01-22 2010-01-22 Speech recognition analysis via identification information

Publications (2)

Publication Number Publication Date
CN102136269A true CN102136269A (zh) 2011-07-27
CN102136269B CN102136269B (zh) 2013-05-22

Family

ID=44296031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100311666A Active CN102136269B (zh) 2010-01-22 2011-01-21 经由标识信息的语音识别分析

Country Status (2)

Country Link
US (1) US8676581B2 (zh)
CN (1) CN102136269B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945672A (zh) * 2012-09-29 2013-02-27 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
CN103188549A (zh) * 2011-12-28 2013-07-03 宏碁股份有限公司 视频播放装置及其操作方法
CN103294939A (zh) * 2012-02-01 2013-09-11 国际商业机器公司 用于虚拟化身认证的方法和系统
CN103578468A (zh) * 2012-08-01 2014-02-12 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
CN104345649A (zh) * 2013-08-09 2015-02-11 晨星半导体股份有限公司 应用于声控装置的控制器与相关方法
CN104679768A (zh) * 2013-11-29 2015-06-03 百度在线网络技术(北京)有限公司 从文档中提取关键词的方法和设备
CN104823234A (zh) * 2012-10-26 2015-08-05 微软技术许可有限责任公司 利用深度成像扩充语音识别
CN105556592A (zh) * 2013-06-27 2016-05-04 亚马逊技术股份有限公司 检测自我生成的唤醒声调
CN105812969A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 一种拾取声音信号的方法、系统及装置
CN106599866A (zh) * 2016-12-22 2017-04-26 上海百芝龙网络科技有限公司 一种多维度用户身份识别方法
CN107077847A (zh) * 2014-11-03 2017-08-18 微软技术许可有限责任公司 关键短语用户识别的增强
CN107430395A (zh) * 2014-12-29 2017-12-01 Abb瑞士股份有限公司 用于识别与加工厂中的条件关联的事件序列的方法
CN107911743A (zh) * 2011-08-26 2018-04-13 谷歌有限责任公司 用于确定媒体项正被呈现的置信水平的系统和方法
CN109031961A (zh) * 2018-06-29 2018-12-18 百度在线网络技术(北京)有限公司 用于控制操作对象的方法和装置
CN109145285A (zh) * 2017-06-19 2019-01-04 通用汽车环球科技运作有限责任公司 短语提取文本分析方法和系统
CN109200578A (zh) * 2017-06-30 2019-01-15 电子技术公司 用于视频游戏的交互式语音控制的伴随应用
CN109791616A (zh) * 2016-06-14 2019-05-21 O·内策尔 自动语音识别
CN110058892A (zh) * 2019-04-29 2019-07-26 Oppo广东移动通信有限公司 电子设备交互方法、装置、电子设备及存储介质
CN110663021A (zh) * 2017-11-06 2020-01-07 谷歌有限责任公司 关注出席用户的方法和系统
CN111128146A (zh) * 2018-10-30 2020-05-08 英飞凌科技股份有限公司 用于用户交互的改进设备

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9704502B2 (en) * 2004-07-30 2017-07-11 Invention Science Fund I, Llc Cue-aware privacy filter for participants in persistent communications
US9779750B2 (en) 2004-07-30 2017-10-03 Invention Science Fund I, Llc Cue-aware privacy filter for participants in persistent communications
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US8869195B2 (en) * 2009-12-10 2014-10-21 At&T Intellectual Property I, L.P. Apparatus and method for managing voice communications
US8935737B2 (en) 2009-12-10 2015-01-13 At&T Intellectual Property I, Lp Apparatus and method for managing voice communications
US8442835B2 (en) 2010-06-17 2013-05-14 At&T Intellectual Property I, L.P. Methods, systems, and products for measuring health
FR2962048A1 (fr) * 2010-07-02 2012-01-06 Aldebaran Robotics S A Robot humanoide joueur, methode et systeme d'utilisation dudit robot
US9263034B1 (en) * 2010-07-13 2016-02-16 Google Inc. Adapting enhanced acoustic models
US8666768B2 (en) 2010-07-27 2014-03-04 At&T Intellectual Property I, L. P. Methods, systems, and products for measuring health
US9274744B2 (en) 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
US9921641B1 (en) 2011-06-10 2018-03-20 Amazon Technologies, Inc. User/object interactions in an augmented reality environment
US10008037B1 (en) 2011-06-10 2018-06-26 Amazon Technologies, Inc. User/object interactions in an augmented reality environment
US9996972B1 (en) 2011-06-10 2018-06-12 Amazon Technologies, Inc. User/object interactions in an augmented reality environment
US9973848B2 (en) * 2011-06-21 2018-05-15 Amazon Technologies, Inc. Signal-enhancing beamforming in an augmented reality environment
US9318129B2 (en) 2011-07-18 2016-04-19 At&T Intellectual Property I, Lp System and method for enhancing speech activity detection using facial feature detection
US9256396B2 (en) * 2011-10-10 2016-02-09 Microsoft Technology Licensing, Llc Speech recognition for context switching
US8700398B2 (en) * 2011-11-29 2014-04-15 Nuance Communications, Inc. Interface for setting confidence thresholds for automatic speech recognition and call steering applications
US9223415B1 (en) 2012-01-17 2015-12-29 Amazon Technologies, Inc. Managing resource usage for task performance
EP2817785B1 (en) * 2012-02-23 2019-05-15 Charles D. Huston System and method for creating an environment and for sharing a location based experience in an environment
US9786281B1 (en) 2012-08-02 2017-10-10 Amazon Technologies, Inc. Household agent learning
US9424840B1 (en) * 2012-08-31 2016-08-23 Amazon Technologies, Inc. Speech recognition platforms
KR102091236B1 (ko) * 2012-09-28 2020-03-18 삼성전자 주식회사 전자기기 및 그 제어방법
US9412375B2 (en) 2012-11-14 2016-08-09 Qualcomm Incorporated Methods and apparatuses for representing a sound field in a physical space
US8571851B1 (en) * 2012-12-31 2013-10-29 Google Inc. Semantic interpretation using user gaze order
US9747900B2 (en) 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition
US20150046161A1 (en) * 2013-08-07 2015-02-12 Lenovo (Singapore) Pte. Ltd. Device implemented learning validation
US9847082B2 (en) * 2013-08-23 2017-12-19 Honeywell International Inc. System for modifying speech recognition and beamforming using a depth image
US11199906B1 (en) 2013-09-04 2021-12-14 Amazon Technologies, Inc. Global user input management
US9367203B1 (en) 2013-10-04 2016-06-14 Amazon Technologies, Inc. User interface techniques for simulating three-dimensional depth
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
CA2891742C (en) * 2014-05-15 2023-11-28 Tyco Safety Products Canada Ltd. System and method for processing control commands in a voice interactive system
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
WO2017199486A1 (ja) * 2016-05-16 2017-11-23 ソニー株式会社 情報処理装置
CN106303658B (zh) * 2016-08-19 2018-11-30 百度在线网络技术(北京)有限公司 应用于视频直播的交互方法和装置
US10403273B2 (en) * 2016-09-09 2019-09-03 Oath Inc. Method and system for facilitating a guided dialog between a user and a conversational agent
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US10467510B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
US10950228B1 (en) * 2017-06-28 2021-03-16 Amazon Technologies, Inc. Interactive voice controlled entertainment
US10776073B2 (en) 2018-10-08 2020-09-15 Nuance Communications, Inc. System and method for managing a mute button setting for a conference call
KR102228866B1 (ko) * 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법
CN112581981B (zh) * 2020-11-04 2023-11-03 北京百度网讯科技有限公司 人机交互方法、装置、计算机设备和存储介质
WO2022141651A1 (en) * 2021-01-04 2022-07-07 Alibaba Group Holding Limited Visual tracking system for active object
US11842737B2 (en) * 2021-03-24 2023-12-12 Google Llc Automated assistant interaction prediction using fusion of visual and audio input
CN113128415B (zh) * 2021-04-22 2023-09-29 合肥工业大学 一种环境辨别方法、系统、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5930383A (en) * 1996-09-24 1999-07-27 Netzer; Yishay Depth sensing camera systems and methods
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
CN1997161A (zh) * 2006-12-30 2007-07-11 华为技术有限公司 一种视频终端以及一种音频码流处理方法
CN101068308A (zh) * 2007-05-10 2007-11-07 华为技术有限公司 一种控制图像采集装置进行目标定位的系统及方法
CN101330585A (zh) * 2007-06-20 2008-12-24 深圳Tcl新技术有限公司 一种声音定位的方法及系统
CN101355666A (zh) * 2007-07-27 2009-01-28 深圳Tcl新技术有限公司 一种声音定位的系统

Family Cites Families (225)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4288078A (en) * 1979-11-20 1981-09-08 Lugo Julio I Game apparatus
US4695953A (en) * 1983-08-25 1987-09-22 Blair Preston E TV animation interactively controlled by the viewer
US4630910A (en) * 1984-02-16 1986-12-23 Robotic Vision Systems, Inc. Method of measuring in three-dimensions at high speed
US4627620A (en) * 1984-12-26 1986-12-09 Yang John P Electronic athlete trainer for improving skills in reflex, speed and accuracy
US4645458A (en) * 1985-04-15 1987-02-24 Harald Phillip Athletic evaluation and training apparatus
US4702475A (en) * 1985-08-16 1987-10-27 Innovating Training Products, Inc. Sports technique and reaction training system
US4843568A (en) * 1986-04-11 1989-06-27 Krueger Myron W Real time perception of and response to the actions of an unencumbered participant/user
US4711543A (en) * 1986-04-14 1987-12-08 Blair Preston E TV animation interactively controlled by the viewer
US4796997A (en) * 1986-05-27 1989-01-10 Synthetic Vision Systems, Inc. Method and system for high-speed, 3-D imaging of an object at a vision station
US5184295A (en) * 1986-05-30 1993-02-02 Mann Ralph V System and method for teaching physical skills
US4751642A (en) * 1986-08-29 1988-06-14 Silva John M Interactive sports simulation system with physiological sensing and psychological conditioning
US4809065A (en) * 1986-12-01 1989-02-28 Kabushiki Kaisha Toshiba Interactive system and related method for displaying data to produce a three-dimensional image of an object
US4817950A (en) * 1987-05-08 1989-04-04 Goo Paul E Video game control unit and attitude sensor
US5239463A (en) * 1988-08-04 1993-08-24 Blair Preston E Method and apparatus for player interaction with animated characters and objects
US5239464A (en) * 1988-08-04 1993-08-24 Blair Preston E Interactive video system providing repeated switching of multiple tracks of actions sequences
US4901362A (en) * 1988-08-08 1990-02-13 Raytheon Company Method of recognizing patterns
US4893183A (en) * 1988-08-11 1990-01-09 Carnegie-Mellon University Robotic vision system
JPH02199526A (ja) * 1988-10-14 1990-08-07 David G Capper 制御インターフェース装置
US4925189A (en) * 1989-01-13 1990-05-15 Braeunig Thomas F Body-mounted video game exercise device
US5229756A (en) * 1989-02-07 1993-07-20 Yamaha Corporation Image control apparatus
US5469740A (en) 1989-07-14 1995-11-28 Impulse Technology, Inc. Interactive video testing and training system
JPH03103822U (zh) * 1990-02-13 1991-10-29
US5101444A (en) * 1990-05-18 1992-03-31 Panacea, Inc. Method and apparatus for high speed object location
US5148154A (en) * 1990-12-04 1992-09-15 Sony Corporation Of America Multi-dimensional user interface
US5534917A (en) 1991-05-09 1996-07-09 Very Vivid, Inc. Video image based control system
US5417210A (en) * 1992-05-27 1995-05-23 International Business Machines Corporation System and method for augmentation of endoscopic surgery
US5295491A (en) * 1991-09-26 1994-03-22 Sam Technology, Inc. Non-invasive human neurocognitive performance capability testing method and system
US6054991A (en) 1991-12-02 2000-04-25 Texas Instruments Incorporated Method of modeling player position and movement in a virtual reality system
CA2101633A1 (en) 1991-12-03 1993-06-04 Barry J. French Interactive video testing and training system
US5875108A (en) 1991-12-23 1999-02-23 Hoffberg; Steven M. Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
JPH07325934A (ja) 1992-07-10 1995-12-12 Walt Disney Co:The 仮想世界に向上したグラフィックスを提供する方法および装置
US5999908A (en) 1992-08-06 1999-12-07 Abelow; Daniel H. Customer-based product design module
US5320538A (en) * 1992-09-23 1994-06-14 Hughes Training, Inc. Interactive aircraft training system and method
IT1257294B (it) 1992-11-20 1996-01-12 Dispositivo atto a rilevare la configurazione di un'unita' fisiologicadistale,da utilizzarsi in particolare come interfaccia avanzata per macchine e calcolatori.
US5495576A (en) 1993-01-11 1996-02-27 Ritchey; Kurtis J. Panoramic image based virtual reality/telepresence audio-visual system and method
US5690582A (en) 1993-02-02 1997-11-25 Tectrix Fitness Equipment, Inc. Interactive exercise apparatus
JP2799126B2 (ja) 1993-03-26 1998-09-17 株式会社ナムコ ビデオゲーム装置及びゲーム用入力装置
US5465317A (en) * 1993-05-18 1995-11-07 International Business Machines Corporation Speech recognition system with improved rejection of words and sounds not in the system vocabulary
US5405152A (en) * 1993-06-08 1995-04-11 The Walt Disney Company Method and apparatus for an interactive video game with physical feedback
US5454043A (en) 1993-07-30 1995-09-26 Mitsubishi Electric Research Laboratories, Inc. Dynamic and static hand gesture recognition through low-level image analysis
US5423554A (en) * 1993-09-24 1995-06-13 Metamedia Ventures, Inc. Virtual reality game method and apparatus
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
US5980256A (en) 1993-10-29 1999-11-09 Carmein; David E. E. Virtual reality system with enhanced sensory apparatus
JP3419050B2 (ja) 1993-11-19 2003-06-23 株式会社日立製作所 入力装置
US5347306A (en) * 1993-12-17 1994-09-13 Mitsubishi Electric Research Laboratories, Inc. Animated electronic meeting place
JP2552427B2 (ja) 1993-12-28 1996-11-13 コナミ株式会社 テレビ遊戯システム
US5577981A (en) 1994-01-19 1996-11-26 Jarvik; Robert Virtual reality exercise machine and computer controlled video system
US5580249A (en) 1994-02-14 1996-12-03 Sarcos Group Apparatus for simulating mobility of a human
US5597309A (en) 1994-03-28 1997-01-28 Riess; Thomas Method and apparatus for treatment of gait problems associated with parkinson's disease
US5385519A (en) * 1994-04-19 1995-01-31 Hsu; Chi-Hsueh Running machine
US5524637A (en) 1994-06-29 1996-06-11 Erickson; Jon W. Interactive system for measuring physiological exertion
US5563988A (en) 1994-08-01 1996-10-08 Massachusetts Institute Of Technology Method and system for facilitating wireless, full-body, real-time user interaction with a digitally represented visual environment
US6714665B1 (en) 1994-09-02 2004-03-30 Sarnoff Corporation Fully automated iris recognition system utilizing wide and narrow fields of view
US5516105A (en) 1994-10-06 1996-05-14 Exergame, Inc. Acceleration activated joystick
US5638300A (en) 1994-12-05 1997-06-10 Johnson; Lee E. Golf swing analysis system
JPH08161292A (ja) 1994-12-09 1996-06-21 Matsushita Electric Ind Co Ltd 混雑度検知方法およびそのシステム
US5594469A (en) 1995-02-21 1997-01-14 Mitsubishi Electric Information Technology Center America Inc. Hand gesture machine control system
US5682229A (en) 1995-04-14 1997-10-28 Schwartz Electro-Optics, Inc. Laser range camera
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5913727A (en) 1995-06-02 1999-06-22 Ahdoot; Ned Interactive movement and contact simulation game
JP3481631B2 (ja) 1995-06-07 2003-12-22 ザ トラスティース オブ コロンビア ユニヴァーシティー イン ザ シティー オブ ニューヨーク 能動型照明及びデフォーカスに起因する画像中の相対的なぼけを用いる物体の3次元形状を決定する装置及び方法
US5682196A (en) 1995-06-22 1997-10-28 Actv, Inc. Three-dimensional (3D) video presentation system providing interactive 3D presentation with personalized audio responses for multiple viewers
US5702323A (en) 1995-07-26 1997-12-30 Poulton; Craig K. Electronic exercise enhancer
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US6098458A (en) 1995-11-06 2000-08-08 Impulse Technology, Ltd. Testing and training system for assessing movement and agility skills without a confining field
US6308565B1 (en) 1995-11-06 2001-10-30 Impulse Technology Ltd. System and method for tracking and assessing movement skills in multidimensional space
US6073489A (en) 1995-11-06 2000-06-13 French; Barry J. Testing and training system for assessing the ability of a player to complete a task
US6430997B1 (en) 1995-11-06 2002-08-13 Trazer Technologies, Inc. System and method for tracking and assessing movement skills in multidimensional space
US6176782B1 (en) 1997-12-22 2001-01-23 Philips Electronics North America Corp. Motion-based command generation technology
US5933125A (en) 1995-11-27 1999-08-03 Cae Electronics, Ltd. Method and apparatus for reducing instability in the display of a virtual environment
US5641288A (en) 1996-01-11 1997-06-24 Zaenglein, Jr.; William G. Shooting simulating process and training device using a virtual reality display screen
JP2000510013A (ja) 1996-05-08 2000-08-08 リアル ヴィジョン コーポレイション 位置検出を用いたリアルタイムシミュレーション
US6173066B1 (en) 1996-05-21 2001-01-09 Cybernet Systems Corporation Pose determination and tracking by matching 3D objects to a 2D sensor
US5989157A (en) 1996-08-06 1999-11-23 Walton; Charles A. Exercising system with electronic inertial game playing
EP0959444A4 (en) 1996-08-14 2005-12-07 Nurakhmed Nurislamovic Latypov METHOD FOR TRACKING AND REPRESENTING THE POSITION AND ORIENTATION OF A SUBJECT IN THE SPACE, METHOD FOR PRESENTING A VIRTUAL SPACE THEREON, AND SYSTEMS FOR CARRYING OUT SAID METHODS
JP3064928B2 (ja) 1996-09-20 2000-07-12 日本電気株式会社 被写体抽出方式
EP0849697B1 (en) 1996-12-20 2003-02-12 Hitachi Europe Limited A hand gesture recognition system and method
US6118888A (en) * 1997-02-28 2000-09-12 Kabushiki Kaisha Toshiba Multi-modal interface apparatus and method
US6009210A (en) 1997-03-05 1999-12-28 Digital Equipment Corporation Hands-free interface to a virtual reality environment using head tracking
US6100896A (en) 1997-03-24 2000-08-08 Mitsubishi Electric Information Technology Center America, Inc. System for designing graphical multi-participant environments
US5877803A (en) 1997-04-07 1999-03-02 Tritech Mircoelectronics International, Ltd. 3-D image detector
US6215898B1 (en) 1997-04-15 2001-04-10 Interval Research Corporation Data processing system and method
JP3077745B2 (ja) 1997-07-31 2000-08-14 日本電気株式会社 データ処理方法および装置、情報記憶媒体
US6188777B1 (en) 1997-08-01 2001-02-13 Interval Research Corporation Method and apparatus for personnel detection and tracking
US6289112B1 (en) 1997-08-22 2001-09-11 International Business Machines Corporation System and method for determining block direction in fingerprint images
US6720949B1 (en) 1997-08-22 2004-04-13 Timothy R. Pryor Man machine interfaces and applications
AUPO894497A0 (en) 1997-09-02 1997-09-25 Xenotech Research Pty Ltd Image processing method and apparatus
EP0905644A3 (en) 1997-09-26 2004-02-25 Matsushita Electric Industrial Co., Ltd. Hand gesture recognizing device
US6141463A (en) 1997-10-10 2000-10-31 Electric Planet Interactive Method and system for estimating jointed-figure configurations
US6130677A (en) 1997-10-15 2000-10-10 Electric Planet, Inc. Interactive computer vision system
US6072494A (en) 1997-10-15 2000-06-06 Electric Planet, Inc. Method and apparatus for real-time gesture recognition
US6101289A (en) 1997-10-15 2000-08-08 Electric Planet, Inc. Method and apparatus for unencumbered capture of an object
WO1999019840A1 (en) 1997-10-15 1999-04-22 Electric Planet, Inc. A system and method for generating an animatable character
AU1099899A (en) 1997-10-15 1999-05-03 Electric Planet, Inc. Method and apparatus for performing a clean background subtraction
US6181343B1 (en) 1997-12-23 2001-01-30 Philips Electronics North America Corp. System and method for permitting three-dimensional navigation through a virtual reality environment using camera-based gesture inputs
US6159100A (en) 1998-04-23 2000-12-12 Smith; Michael D. Virtual reality game
US6077201A (en) 1998-06-12 2000-06-20 Cheng; Chau-Yang Exercise bicycle
US6950534B2 (en) 1998-08-10 2005-09-27 Cybernet Systems Corporation Gesture-controlled interfaces for self-service machines and other applications
US7036094B1 (en) 1998-08-10 2006-04-25 Cybernet Systems Corporation Behavior recognition system
US7121946B2 (en) 1998-08-10 2006-10-17 Cybernet Systems Corporation Real-time head tracking system for computer games and other applications
US6801637B2 (en) 1999-08-10 2004-10-05 Cybernet Systems Corporation Optical body tracker
US6681031B2 (en) 1998-08-10 2004-01-20 Cybernet Systems Corporation Gesture-controlled interfaces for self-service machines and other applications
US20010008561A1 (en) 1999-08-10 2001-07-19 Paul George V. Real-time object tracking system
IL126284A (en) 1998-09-17 2002-12-01 Netmor Ltd System and method for three dimensional positioning and tracking
EP0991011B1 (en) 1998-09-28 2007-07-25 Matsushita Electric Industrial Co., Ltd. Method and device for segmenting hand gestures
AU1930700A (en) 1998-12-04 2000-06-26 Interval Research Corporation Background estimation and segmentation based on range and color
US6147678A (en) 1998-12-09 2000-11-14 Lucent Technologies Inc. Video hand image-three-dimensional computer interface with multiple degrees of freedom
WO2000036372A1 (en) 1998-12-16 2000-06-22 3Dv Systems, Ltd. Self gating photosurface
US6570555B1 (en) 1998-12-30 2003-05-27 Fuji Xerox Co., Ltd. Method and apparatus for embodied conversational characters with multimodal input/output in an interface device
US6363160B1 (en) 1999-01-22 2002-03-26 Intel Corporation Interface using pattern recognition and tracking
US7003134B1 (en) 1999-03-08 2006-02-21 Vulcan Patents Llc Three dimensional object pose estimation which employs dense depth information
US6299308B1 (en) 1999-04-02 2001-10-09 Cybernet Systems Corporation Low-cost non-imaging eye tracker system for computer control
GB9908545D0 (en) * 1999-04-14 1999-06-09 Canon Kk Image processing apparatus
US6503195B1 (en) 1999-05-24 2003-01-07 University Of North Carolina At Chapel Hill Methods and systems for real-time structured light depth extraction and endoscope using real-time structured light depth extraction
US6476834B1 (en) 1999-05-28 2002-11-05 International Business Machines Corporation Dynamic creation of selectable items on surfaces
US6873723B1 (en) 1999-06-30 2005-03-29 Intel Corporation Segmenting three-dimensional video images using stereo
US6738066B1 (en) 1999-07-30 2004-05-18 Electric Plant, Inc. System, method and article of manufacture for detecting collisions between video images generated by a camera and an object depicted on a display
US7113918B1 (en) 1999-08-01 2006-09-26 Electric Planet, Inc. Method for video enabled electronic commerce
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US7050606B2 (en) 1999-08-10 2006-05-23 Cybernet Systems Corporation Tracking and gesture recognition system particularly suited to vehicular control applications
US7447635B1 (en) * 1999-10-19 2008-11-04 Sony Corporation Natural language interface control system
ES2231448T3 (es) * 2000-01-27 2005-05-16 Siemens Aktiengesellschaft Sistema y procedimiento para el procesamiento de voz enfocado a la vision.
US6663491B2 (en) 2000-02-18 2003-12-16 Namco Ltd. Game apparatus, storage medium and computer program that adjust tempo of sound
US7445550B2 (en) * 2000-02-22 2008-11-04 Creative Kingdoms, Llc Magical wand and interactive play experience
US6633294B1 (en) 2000-03-09 2003-10-14 Seth Rosenthal Method and apparatus for using captured high density motion for animation
EP1152261A1 (en) 2000-04-28 2001-11-07 CSEM Centre Suisse d'Electronique et de Microtechnique SA Device and method for spatially resolved photodetection and demodulation of modulated electromagnetic waves
US6640202B1 (en) 2000-05-25 2003-10-28 International Business Machines Corporation Elastic sensor mesh system for 3-dimensional measurement, mapping and kinematics applications
US6731799B1 (en) 2000-06-01 2004-05-04 University Of Washington Object segmentation with background extraction and moving boundary techniques
US6735562B1 (en) 2000-06-05 2004-05-11 Motorola, Inc. Method for estimating a confidence measure for a speech recognition system
US6788809B1 (en) 2000-06-30 2004-09-07 Intel Corporation System and method for gesture recognition in three dimensions using stereo imaging and color vision
US7227526B2 (en) 2000-07-24 2007-06-05 Gesturetek, Inc. Video-based image control system
AU2001296459A1 (en) * 2000-10-02 2002-04-15 Clarity, L.L.C. Audio visual speech processing
US7058204B2 (en) 2000-10-03 2006-06-06 Gesturetek, Inc. Multiple camera control system
US7039676B1 (en) 2000-10-31 2006-05-02 International Business Machines Corporation Using video image analysis to automatically transmit gestures over a network in a chat or instant messaging session
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US6539931B2 (en) 2001-04-16 2003-04-01 Koninklijke Philips Electronics N.V. Ball throwing assistant
JP3771812B2 (ja) * 2001-05-28 2006-04-26 インターナショナル・ビジネス・マシーンズ・コーポレーション ロボットおよびその制御方法
US8035612B2 (en) 2002-05-28 2011-10-11 Intellectual Ventures Holding 67 Llc Self-contained interactive video display system
US7259747B2 (en) 2001-06-05 2007-08-21 Reactrix Systems, Inc. Interactive video display system
JP3420221B2 (ja) 2001-06-29 2003-06-23 株式会社コナミコンピュータエンタテインメント東京 ゲーム装置及びプログラム
DE10133126A1 (de) * 2001-07-07 2003-01-16 Philips Corp Intellectual Pty Richtungssensitives Audioaufnahmesystem mit Anzeige von Aufnahmegebiet und/oder Störquelle
US6937742B2 (en) 2001-09-28 2005-08-30 Bellsouth Intellectual Property Corporation Gesture activated home appliance
JP2003131683A (ja) * 2001-10-22 2003-05-09 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US6807529B2 (en) * 2002-02-27 2004-10-19 Motorola, Inc. System and method for concurrent multimodal communication
EP1497160B2 (de) 2002-04-19 2010-07-21 IEE INTERNATIONAL ELECTRONICS & ENGINEERING S.A. Sicherheitsvorrichtung für ein fahrzeug
US7710391B2 (en) 2002-05-28 2010-05-04 Matthew Bell Processing an image utilizing a spatially varying pattern
US7348963B2 (en) 2002-05-28 2008-03-25 Reactrix Systems, Inc. Interactive video display system
US7170492B2 (en) 2002-05-28 2007-01-30 Reactrix Systems, Inc. Interactive video display system
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7489812B2 (en) 2002-06-07 2009-02-10 Dynamic Digital Depth Research Pty Ltd. Conversion and encoding techniques
US6882971B2 (en) * 2002-07-18 2005-04-19 General Instrument Corporation Method and apparatus for improving listener differentiation of talkers during a conference call
US20040037450A1 (en) * 2002-08-22 2004-02-26 Bradski Gary R. Method, apparatus and system for using computer vision to identify facial characteristics
JP3910898B2 (ja) * 2002-09-17 2007-04-25 株式会社東芝 指向性設定装置、指向性設定方法及び指向性設定プログラム
US7046300B2 (en) * 2002-11-29 2006-05-16 International Business Machines Corporation Assessing consistency between facial motion and speech signals in video
US7576727B2 (en) 2002-12-13 2009-08-18 Matthew Bell Interactive directed light/sound system
US20090030552A1 (en) * 2002-12-17 2009-01-29 Japan Science And Technology Agency Robotics visual and auditory system
US6993482B2 (en) * 2002-12-18 2006-01-31 Motorola, Inc. Method and apparatus for displaying speech recognition results
US20040119754A1 (en) * 2002-12-19 2004-06-24 Srinivas Bangalore Context-sensitive interface widgets for multi-modal dialog systems
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
JP4235729B2 (ja) 2003-02-03 2009-03-11 国立大学法人静岡大学 距離画像センサ
US7762665B2 (en) * 2003-03-21 2010-07-27 Queen's University At Kingston Method and apparatus for communication between humans and devices
US8745541B2 (en) * 2003-03-25 2014-06-03 Microsoft Corporation Architecture for controlling a computer using hand gestures
DE602004006190T8 (de) 2003-03-31 2008-04-10 Honda Motor Co., Ltd. Vorrichtung, Verfahren und Programm zur Gestenerkennung
US8072470B2 (en) 2003-05-29 2011-12-06 Sony Computer Entertainment Inc. System and method for providing a real-time three-dimensional interactive environment
US7372977B2 (en) 2003-05-29 2008-05-13 Honda Motor Co., Ltd. Visual tracking using depth data
US7620202B2 (en) 2003-06-12 2009-11-17 Honda Motor Co., Ltd. Target orientation estimation using depth sensing
US7251603B2 (en) * 2003-06-23 2007-07-31 International Business Machines Corporation Audio-only backoff in audio-visual speech recognition system
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
US7428000B2 (en) * 2003-06-26 2008-09-23 Microsoft Corp. System and method for distributed meetings
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US7536032B2 (en) 2003-10-24 2009-05-19 Reactrix Systems, Inc. Method and system for processing captured image information in an interactive video display system
JP4516527B2 (ja) * 2003-11-12 2010-08-04 本田技研工業株式会社 音声認識装置
US7580570B2 (en) 2003-12-09 2009-08-25 Microsoft Corporation Accuracy model for recognition signal processing engines
CN100573548C (zh) 2004-04-15 2009-12-23 格斯图尔泰克股份有限公司 跟踪双手运动的方法和设备
US7308112B2 (en) 2004-05-14 2007-12-11 Honda Motor Co., Ltd. Sign based human-machine interaction
US7704135B2 (en) 2004-08-23 2010-04-27 Harrison Jr Shelton E Integrated game system, method, and device
US7684988B2 (en) * 2004-10-15 2010-03-23 Microsoft Corporation Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models
JP4157581B2 (ja) * 2004-12-03 2008-10-01 本田技研工業株式会社 音声認識装置
KR20060070280A (ko) 2004-12-20 2006-06-23 한국전자통신연구원 손 제스처 인식을 이용한 사용자 인터페이스 장치 및 그방법
JP4204541B2 (ja) * 2004-12-24 2009-01-07 株式会社東芝 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
JP2008537190A (ja) 2005-01-07 2008-09-11 ジェスチャー テック,インコーポレイテッド 赤外線パターンを照射することによる対象物の三次元像の生成
EP3693889A3 (en) 2005-01-07 2020-10-28 QUALCOMM Incorporated Detecting and tracking objects in images
EP1849123A2 (en) 2005-01-07 2007-10-31 GestureTek, Inc. Optical flow based tilt sensor
US7450698B2 (en) * 2005-01-14 2008-11-11 At&T Intellectual Property 1, L.P. System and method of utilizing a hybrid semantic model for speech recognition
JP5631535B2 (ja) 2005-02-08 2014-11-26 オブロング・インダストリーズ・インコーポレーテッド ジェスチャベースの制御システムのためのシステムおよび方法
US7317836B2 (en) 2005-03-17 2008-01-08 Honda Motor Co., Ltd. Pose estimation based on critical point analysis
US20060227237A1 (en) * 2005-03-31 2006-10-12 International Business Machines Corporation Video surveillance system and method with combined video and audio recognition
KR101430761B1 (ko) 2005-05-17 2014-08-19 퀄컴 인코포레이티드 방위-감응 신호 출력
EP1752748B1 (en) 2005-08-12 2008-10-29 MESA Imaging AG Highly sensitive, fast pixel for use in an image sensor
US20080026838A1 (en) 2005-08-22 2008-01-31 Dunstan James E Multi-player non-role-playing virtual world games: method for two-way interaction between participants and multi-player virtual world games
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US7697827B2 (en) * 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US7450736B2 (en) 2005-10-28 2008-11-11 Honda Motor Co., Ltd. Monocular tracking of 3D human motion with a coordinated mixture of factor analyzers
JP4557919B2 (ja) * 2006-03-29 2010-10-06 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
US7701439B2 (en) 2006-07-13 2010-04-20 Northrop Grumman Corporation Gesture recognition simulation system and method
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置
JP5395323B2 (ja) 2006-09-29 2014-01-22 ブレインビジョン株式会社 固体撮像素子
DE602006005493D1 (de) * 2006-10-02 2009-04-16 Harman Becker Automotive Sys Sprachsteuerung von Fahrzeugelementen von außerhalb einer Fahrzeugkabine
US7412077B2 (en) 2006-12-29 2008-08-12 Motorola, Inc. Apparatus and methods for head pose estimation and head gesture detection
US20080165388A1 (en) * 2007-01-04 2008-07-10 Bertrand Serlet Automatic Content Creation and Processing
US7729530B2 (en) 2007-03-03 2010-06-01 Sergey Antonov Method and apparatus for 3-D data input to a personal computer with a multimedia oriented operating system
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
WO2008122974A1 (en) * 2007-04-06 2008-10-16 Technion Research & Development Foundation Ltd. Method and apparatus for the use of cross modal association to isolate individual media sources
KR20080111290A (ko) * 2007-06-18 2008-12-23 삼성전자주식회사 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법
US7852262B2 (en) 2007-08-16 2010-12-14 Cybernet Systems Corporation Wireless mobile indoor/outdoor tracking system
US8024185B2 (en) * 2007-10-10 2011-09-20 International Business Machines Corporation Vocal command directives to compose dynamic display text
ATE456130T1 (de) * 2007-10-29 2010-02-15 Harman Becker Automotive Sys Partielle sprachrekonstruktion
US8249867B2 (en) * 2007-12-11 2012-08-21 Electronics And Telecommunications Research Institute Microphone array based speech recognition system and target speech extracting method of the system
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
KR100988397B1 (ko) * 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US8315366B2 (en) * 2008-07-22 2012-11-20 Shoretel, Inc. Speaker identification and representation for a phone
CN201254344Y (zh) 2008-08-20 2009-06-10 中国农业科学院草原研究所 植物标本及种子存贮器
CN101350931B (zh) * 2008-08-27 2011-09-14 华为终端有限公司 音频信号的生成、播放方法及装置、处理系统
JP5247384B2 (ja) * 2008-11-28 2013-07-24 キヤノン株式会社 撮像装置、情報処理方法、プログラムおよび記憶媒体
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
TW201032087A (en) * 2009-02-19 2010-09-01 Asustek Comp Inc Command control system and method thereof
US8326637B2 (en) * 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US8174932B2 (en) * 2009-06-11 2012-05-08 Hewlett-Packard Development Company, L.P. Multimodal object localization
US8380501B2 (en) * 2009-08-05 2013-02-19 Siemens Industry, Inc. Parcel address recognition by voice and image through operational rules
JP5617083B2 (ja) * 2009-09-03 2014-11-05 本田技研工業株式会社 コマンド認識装置、コマンド認識方法、及びコマンド認識ロボット
US20110107216A1 (en) * 2009-11-03 2011-05-05 Qualcomm Incorporated Gesture-based user interface
US8265341B2 (en) * 2010-01-25 2012-09-11 Microsoft Corporation Voice-body identity correlation
US8296151B2 (en) * 2010-06-18 2012-10-23 Microsoft Corporation Compound gesture-speech commands
US9401058B2 (en) * 2012-01-30 2016-07-26 International Business Machines Corporation Zone based presence determination via voiceprint location awareness

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5930383A (en) * 1996-09-24 1999-07-27 Netzer; Yishay Depth sensing camera systems and methods
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
CN1997161A (zh) * 2006-12-30 2007-07-11 华为技术有限公司 一种视频终端以及一种音频码流处理方法
CN101068308A (zh) * 2007-05-10 2007-11-07 华为技术有限公司 一种控制图像采集装置进行目标定位的系统及方法
CN101330585A (zh) * 2007-06-20 2008-12-24 深圳Tcl新技术有限公司 一种声音定位的方法及系统
CN101355666A (zh) * 2007-07-27 2009-01-28 深圳Tcl新技术有限公司 一种声音定位的系统

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11755936B2 (en) 2011-08-26 2023-09-12 Google Llc Systems and methods for determining that a media item is being presented
US11216740B2 (en) 2011-08-26 2022-01-04 Google Llc Systems and methods for determining that a media item is being presented
CN107911743A (zh) * 2011-08-26 2018-04-13 谷歌有限责任公司 用于确定媒体项正被呈现的置信水平的系统和方法
CN103188549A (zh) * 2011-12-28 2013-07-03 宏碁股份有限公司 视频播放装置及其操作方法
US9641507B2 (en) 2012-02-01 2017-05-02 International Business Machines Corporation Virtual avatar authentication
CN103294939A (zh) * 2012-02-01 2013-09-11 国际商业机器公司 用于虚拟化身认证的方法和系统
CN103294939B (zh) * 2012-02-01 2016-03-09 国际商业机器公司 用于虚拟化身认证的方法和系统
CN103578468A (zh) * 2012-08-01 2014-02-12 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
CN103578468B (zh) * 2012-08-01 2017-06-27 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
CN102945672B (zh) * 2012-09-29 2013-10-16 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
CN102945672A (zh) * 2012-09-29 2013-02-27 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
CN104823234A (zh) * 2012-10-26 2015-08-05 微软技术许可有限责任公司 利用深度成像扩充语音识别
US10720155B2 (en) 2013-06-27 2020-07-21 Amazon Technologies, Inc. Detecting self-generated wake expressions
US11600271B2 (en) 2013-06-27 2023-03-07 Amazon Technologies, Inc. Detecting self-generated wake expressions
CN105556592A (zh) * 2013-06-27 2016-05-04 亚马逊技术股份有限公司 检测自我生成的唤醒声调
US11568867B2 (en) 2013-06-27 2023-01-31 Amazon Technologies, Inc. Detecting self-generated wake expressions
CN104345649A (zh) * 2013-08-09 2015-02-11 晨星半导体股份有限公司 应用于声控装置的控制器与相关方法
CN104679768A (zh) * 2013-11-29 2015-06-03 百度在线网络技术(北京)有限公司 从文档中提取关键词的方法和设备
CN104679768B (zh) * 2013-11-29 2019-08-09 百度在线网络技术(北京)有限公司 从文档中提取关键词的方法和设备
CN107077847A (zh) * 2014-11-03 2017-08-18 微软技术许可有限责任公司 关键短语用户识别的增强
US11270695B2 (en) 2014-11-03 2022-03-08 Microsoft Technology Licensing, Llc Augmentation of key phrase user recognition
CN107077847B (zh) * 2014-11-03 2020-11-10 微软技术许可有限责任公司 关键短语用户识别的增强
CN107430395B (zh) * 2014-12-29 2019-11-19 Abb瑞士股份有限公司 用于识别与加工厂中的条件关联的事件序列的方法
CN107430395A (zh) * 2014-12-29 2017-12-01 Abb瑞士股份有限公司 用于识别与加工厂中的条件关联的事件序列的方法
CN105812969A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 一种拾取声音信号的方法、系统及装置
CN109791616A (zh) * 2016-06-14 2019-05-21 O·内策尔 自动语音识别
CN106599866B (zh) * 2016-12-22 2020-06-02 上海百芝龙网络科技有限公司 一种多维度用户身份识别方法
CN106599866A (zh) * 2016-12-22 2017-04-26 上海百芝龙网络科技有限公司 一种多维度用户身份识别方法
CN109145285B (zh) * 2017-06-19 2023-01-31 通用汽车环球科技运作有限责任公司 短语提取文本分析方法和系统
CN109145285A (zh) * 2017-06-19 2019-01-04 通用汽车环球科技运作有限责任公司 短语提取文本分析方法和系统
CN109200578A (zh) * 2017-06-30 2019-01-15 电子技术公司 用于视频游戏的交互式语音控制的伴随应用
CN109200578B (zh) * 2017-06-30 2021-10-22 电子技术公司 用于视频游戏的交互式语音控制的伴随应用
US11077361B2 (en) 2017-06-30 2021-08-03 Electronic Arts Inc. Interactive voice-controlled companion application for a video game
CN110663021A (zh) * 2017-11-06 2020-01-07 谷歌有限责任公司 关注出席用户的方法和系统
CN110663021B (zh) * 2017-11-06 2024-02-02 谷歌有限责任公司 关注出席用户的方法和系统
CN109031961A (zh) * 2018-06-29 2018-12-18 百度在线网络技术(北京)有限公司 用于控制操作对象的方法和装置
CN111128146A (zh) * 2018-10-30 2020-05-08 英飞凌科技股份有限公司 用于用户交互的改进设备
CN110058892A (zh) * 2019-04-29 2019-07-26 Oppo广东移动通信有限公司 电子设备交互方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US8676581B2 (en) 2014-03-18
US20110184735A1 (en) 2011-07-28
CN102136269B (zh) 2013-05-22

Similar Documents

Publication Publication Date Title
CN102136269B (zh) 经由标识信息的语音识别分析
US11270695B2 (en) Augmentation of key phrase user recognition
US11699442B2 (en) Methods and systems for speech detection
US20210249012A1 (en) Systems and methods for operating an output device
CN108696765B (zh) 视频播放中的辅助输入方法及装置
EP4002363A1 (en) Method and apparatus for detecting an audio signal, and storage medium
CN112634911B (zh) 人机对话方法、电子设备及计算机可读存储介质
US20210225363A1 (en) Information processing device and information processing method
CN113113009A (zh) 多模态语音唤醒和打断方法及装置
US11398221B2 (en) Information processing apparatus, information processing method, and program
CN112700767A (zh) 人机对话打断方法及装置
US20200090663A1 (en) Information processing apparatus and electronic device
CN113301352B (zh) 在视频播放期间进行自动聊天
CN110197663B (zh) 一种控制方法、装置及电子设备
Nock et al. Multimodal processing by finding common cause
CN111078890B (zh) 一种生字词的收集方法及电子设备
CN111971670B (zh) 在对话中生成响应
US20210082427A1 (en) Information processing apparatus and information processing method
CN113066513B (zh) 语音数据处理方法、装置、电子设备及存储介质
US10832040B2 (en) Cognitive rendering of inputs in virtual reality environments
KR20240099616A (ko) 끼어들기 기능을 갖는 음성인식장치 및 방법
JP2022147989A (ja) 発話制御装置、発話制御方法及び発話制御プログラム
King Speaking naturally? It depends who is listening.
CN113573143A (zh) 音频播放方法和电子设备
CN114979549A (zh) 在线会议的隐私保护方法、系统、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150508

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150508

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.