CN109313911A - 沉浸式显示设备上的自动音频衰减 - Google Patents

沉浸式显示设备上的自动音频衰减 Download PDF

Info

Publication number
CN109313911A
CN109313911A CN201780034195.3A CN201780034195A CN109313911A CN 109313911 A CN109313911 A CN 109313911A CN 201780034195 A CN201780034195 A CN 201780034195A CN 109313911 A CN109313911 A CN 109313911A
Authority
CN
China
Prior art keywords
wearer
display device
eye display
instruction
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780034195.3A
Other languages
English (en)
Other versions
CN109313911B (zh
Inventor
J·科勒
D·吴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN109313911A publication Critical patent/CN109313911A/zh
Application granted granted Critical
Publication of CN109313911B publication Critical patent/CN109313911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/211Input arrangements for video game devices characterised by their sensors, purposes or types using inertial sensors, e.g. accelerometers or gyroscopes
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/212Input arrangements for video game devices characterised by their sensors, purposes or types using sensors worn by the player, e.g. for measuring heart beat or leg activity
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/215Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/25Output arrangements for video game devices
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • A63F13/424Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving acoustic input signals, e.g. by using the results of pitch or rhythm extraction or voice recognition
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/52Controlling the output signals based on the game progress involving aspects of the displayed game scene
    • A63F13/525Changing parameters of virtual cameras
    • A63F13/5255Changing parameters of virtual cameras according to dedicated instructions from a player, e.g. using a secondary joystick to rotate the camera around a player's character
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/34Muting amplifier when no signal is present or when only weak signals are present, or caused by the presence of noise signals, e.g. squelch systems
    • H03G3/342Muting when some special characteristic of the signal is sensed which distinguishes it from noise, e.g. using speech detector
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/80Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
    • A63F2300/8082Virtual reality
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Cardiology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Optics & Photonics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本文公开的示例涉及控制沉浸式显示设备上的音量。一个示例提供了一种近眼显示设备,包括传感器子系统、逻辑子系统和存储指令的存储子系统,这样的指令由逻辑子系统可执行以从传感器子系统接收图像传感器数据,呈现包括视觉分量和听觉分量的内容,在呈现内容时,经由图像传感器数据来检测语音可能正指向近眼显示设备的佩戴者,以及响应于检测到语音可能正指向佩戴者,衰减听觉分量的方面。

Description

沉浸式显示设备上的自动音频衰减
背景技术
显示设备,诸如近眼显示设备,可以被配置为连同音频信息一起向用户呈现虚拟影响和其他内容,以提供沉浸式虚拟或增强现实体验。
发明内容
公开了涉及自动衰减沉浸式显示设备上的音量的示例。一个示例提供了近眼显示设备,包括传感器子系统、逻辑子系统和存储指令的存储子系统,这样的指令由逻辑子系统可执行以从传感器子系统接收图像传感器数据,呈现包括视觉分量和听觉分量的内容,在呈现内容时,经由图像传感器数据来检测语音可能正指向近眼显示设备的佩戴者,以及响应于检测到语音可能正指向佩戴者,衰减听觉分量的方面。
提供本发明内容是为了以简化的形式介绍一些概念,这些概念将在下面的具体实施方式中进一步描述。本发明内容无意标识所要求保护的主题的关键特征或必要特征,也无意用于限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任何部分中提到的任何或所有缺点的实施方式。
附图说明
图1示出了用于示例近眼显示设备的示例使用场景。
图2示出了用于多个近眼显示设备的示例使用场景。
图3A和图3B示出了自动衰减经由近眼显示设备呈现的音频内容的音量的示例方法。
图4示出了示例近眼显示系统的框图。
图5示出了示例计算系统的框图。
具体实施方式
如上所述,近眼显示设备,诸如头戴式虚拟现实或增强现实显示设备,可以向用户呈现沉浸式音频/视觉体验。这样的体验可以用于媒体呈现、游戏、工作/生产以及用于许多其他计算交互。图1示出了示例使用场景100,其中示例性近眼显示设备102由正在玩沉浸式混合现实游戏的用户104所佩戴。如图所示,用户104通过透视显示系统查看与真实世界背景的视图混合的虚拟内容105。
在这种沉浸式设置中,有时当其他人(诸如,人106)试图与用户104交互时,用户104可能不会注意到。解决这样的问题的一种方法可能是经由近眼显示设备上的麦克风来检测环境声音,并响应于检测到的环境声音来自动减小音频内容的音量。然而,这种方法可能导致在不适当的时间衰减音频呈现。例如,在图1中,从人108和人110之间的对话中检测到不是指向用户104的话音,但是在被设备102检测到时仍然可以导致音频内容的音量减小。因此,在依赖于不考虑检测到的环境音频源的环境音频检测的情况下,近眼显示设备102不能够将检测到的实际指向用户104的语音与不指向用户104的语音进行区分,并且可能随后在可能不适当或不期望的时候减少呈现的音频内容的音量。
因此,所公开的示例涉及经由图像传感器数据来确定来自另一个人的语音是否可能指向可穿戴显示设备的用户,以及当作出这样的确定时,衰减近眼显示设备上的音频呈现的方面。例如,传感器数据可用于确定人是否接近该用户、人是否正面向用户、检测到的语音是否源自于与检测到的人相同的方向、和/或语音中的词是否指示语音指向该用户。然后,这些因素的存在或不存在可以被使用来帮助确定是否衰减沉浸式近眼体验的音频分量。这可以帮助减少在沉浸式体验的呈现中发生不期望的或不必要的中断。
可以以各种方式来使用图像传感器数据确定人是否可能正将语音指向近眼显示设备的用户。例如,图像传感器数据可以用于确定一个或多个其他人相对于用户的定位(例如,位置和/或定向),因为这样的信息可以指示该人是否正在对用户讲话。作为更具体的示例,近眼显示设备102可以利用深度图像数据来检测人106在用户104的阈值距离内,例如,通过骨架拟合和/或基于深度神经网络、语义角色标记和/或其他合适算法的其他机器学习技术。然后,在检测到人106在阈值距离内时,近眼显示设备可以获取二维图像数据并且应用面部检测算法来确定人106正直接面对用户104。合适的面部检测算法的示例可以包括,但不限于,使用特征脸方法的主成分分析、线性判别分析、使用Fisherface算法的弹性束图匹配、隐马尔可夫模型、多线性子空间学习和动态链接匹配。确定一个人正面向用户可以指示该人正在对该用户讲话的较高可能性,同时确定一个人没有面对用户可以指示该人正在对该用户讲话的可能性较低并且可能反而是在与别人讲话。
此外,近眼显示设备102可将姿势识别算法应用于深度数据,以识别人106的移动(例如,嘴部移动、手臂移动、手/手指移动等),其指示可能尝试与用户104的交互。合适的手势识别算法的示例包括但不限于,基于3D模型的算法、基于骨架的算法和基于外观的模型。使用这样的信息,近眼显示设备102然后可以确定人106可能正在对用户104讲话,并且作为响应,衰减在近眼显示设备102上呈现的音频内容,从而使用户104意识到要关注人106。这些具体示例无意是限制性的,因为图像数据可以以其他方式被用于检测人将语音指向近眼显示用户的可能性。例如,可以使用二维图像数据或深度图像数据来进行这样的确定。
可以使用任何合适的图像传感器或图像传感器的组合。示例包括但不限于:深度图像传感器(例如,飞行时间(time-of-flight)、一个或多个结构光照相机和/或立体照相机布置)和二维图像传感器(例如,RGB和/或灰度传感器)。这样的一个或多个图像传感器可以被配置为获取可见光、红外和/或一个或多个其他合适波长范围内的图像。
在一些示例中,图像数据可以与音频数据相结合以用于确定人可能正将语音指向近眼显示设备用户。例如,近眼显示设备首先可以检测经由被配置为检测环境声音的一个或多个麦克风进行讲话的人。在检测到人讲话时,近眼显示设备然后可以获取并分析图像数据,以确定该语音是否可能源自于站在观看者附近和/或面对观看者的人。
这样的音频数据可以被用于提供附加信息。例如,在近眼显示设备包括定向麦克风阵列(例如,该设备包括位于近眼显示设备上的不同位置处的多个麦克风)的情况下,可以确定接收语音的方向,并且该方向可以与在图像数据中检测到的人的位置进行比较,以确定检测到的语音是否可能源自该人。此外,在一些示例中,话音识别可以与面部标识结合地应用(例如,通过将话音和/或面部数据与存储在远程服务处的用户简档中的话音和/或面部信息进行匹配),来确定讲话者的身份是否与检测到的面部的身份相匹配。另外,可以应用语音识别来标识可以提供如下的指示的词:讲话的人可能将语音指向近眼显示用户。例如,在标识到的被讲出的词中识别出用户的姓名,这可以指示语音可能正指向用户104。
如上所述,二维图像数据可以响应于某些触发而被选择性地获取,而不是由近眼显示设备102连续地获取。作为一个示例,近眼显示设备102可以被配置为响应于从环境麦克风的输入检测到的语音/语音信息,开始获取二维图像数据。作为另一示例,近眼显示设备102可以最初从(多个)机载深度图像传感器获取深度图像数据流以检测人的可能的存在,然后获取二维图像数据来进一步确定人正在对用户104交谈。与连续获取二维图像的系统相比,响应于这样的触发而选择性地激活二维图像数据的获取和/或面部检测可以有助于减少近眼显示设备102的散热和功耗。
此外,在一些示例中,近眼显示设备可以被配置为在检测到来自扬声器系统(诸如建筑物中的紧急扬声器系统)的语音时衰减声音。这样的语音例如可以通过与捕获扬声器的图像的图像数据相组合的定向音频数据来被标识。
在其他示例中,近眼显示设备可以能够基于从其他人在使用的其他设备接收到的数据来检测语音可能正指向佩戴者。作为一个非限制性示例,图2示出了多用户场景200,其中分别佩戴近眼显示设备208、210和212的用户202、204和206正在参与共享的侵入式增强和/或虚拟现实体验。近眼显示设备208、210和212中的每一个包括一个或多个定位传感器,这样的定位传感器被配置为获取与设备的定位相关的传感器数据。这样的定位传感器的示例包括但不限于:加速计、陀螺传感器和全球定位系统(GPS)传感器。在一些示例中,设备可以直接将定位传感器数据传送到其他设备(例如,经由蓝牙或其他合适的协议),以允许每个近眼显示设备相对于其他近眼显示设备的位置和定向被确定。此外,设备可以经由网络216将定位传感器数据发送到与每个近眼显示设备通信的服务器214,使得服务器214可以将定位传感器数据从每个设备分发或以其他方式提供给其他设备。在任一示例中,近眼显示设备可以利用从其他近眼显示设备接收到的定位传感器数据来确定佩戴其他设备之一的人可能正将语音指向到设备的用户。例如,用户202佩戴的近眼显示设备208可以从用户204佩戴的近眼显示设备210(直接地或经由诸如服务器214的中间设备)接收传感器数据,用户204试图对用户202讲话。作为响应,近眼显示设备208可以确定近眼显示设备210相对于近眼显示设备208的位置和定向,指示用户204在距用户202的阈值距离内和/或面向用户202。这样的信息然后可以被单独使用,或者与其他传感器数据(例如,指示用户204当前是否在讲话的音频数据)相结合地被使用,以确定用户204是否可能正在对用户202讲话。
响应于确定用户204可能正在对用户202讲话,近眼显示设备208可以衰减在近眼显示设备208上呈现的音频内容的方面。近眼显示设备可以衰减由设备呈现的内容的听觉分量的任何合适方面。作为示例,近眼显示设备可以被配置为在整个频率上全局地将听觉分量的音量减小到预定义的减小的音量,或者减小到适当地低于检测到的语音和/或环境声音音量的音量。
作为另一示例,在听觉分量包括多声道音频内容的情况下,近眼显示设备可选择性地衰减一个或多个所选声道的音量,同时保持其他声道的音量,或以不同的方式减小其他声道音量。例如,近眼显示设备可以通过减少正在呈现的背景音乐的音量或关闭正在呈现的背景音乐来衰减听觉分量,同时保持其他虚拟声音的当前音量水平。作为另一示例,近眼显示设备可以与第二频率或频率范围相比,不同地衰减第一频率或频率范围处的音量。在任何上述示例中,近眼显示设备还可以以除音量减小之外的其他方式衰减音频,诸如经由噪声消除。为了减少衰减对用户体验的影响,近眼显示设备可以被配置为通过逐渐衰退音量来减小音量,而不是突然切断音量。此外,在一些示例中,近眼显示设备可以完全停止音频内容的呈现,而不是在衰减期间继续音频播放。另外,在近眼显示设备正呈现虚拟现实体验的情况下,该设备可以被配置为按需求暂停体验并提供经由面向外的图像传感器获取的真实世界视图的视频馈送,使得佩戴者设备可以查看可能正在讲话的人。
图3A和图3B示出了描绘用于在近眼显示设备上呈现内容的示例方法300的流程图。方法300包括:在302处,接收来自近眼显示设备的传感器子系统的传感器数据。如上所述,作为示例,接收传感器数据可以包括:在304处从一个或多个图像传感器接收图像传感器数据,在306处从麦克风阵列接收定向音频数据,在308处从一个或多个深度传感器接收深度图像数据流,和/或在310处从另一个人使用的另一设备接收传感器数据。
方法300还包括:在312处呈现包括视觉分量和听觉分量的内容,并且包括在314处在呈现内容时,经由传感器数据来检测语音可能正指向近眼显示设备的佩戴者。在一些示例中,如316所示,这样的检测可以经由图像传感器数据来执行,并且可以利用多种图像数据分析方法。例如,近眼显示设备可以使用深度图像数据来:在318处检测人在距佩戴者的阈值距离内,和/或在320处检测人朝向佩戴者,和/或检测可能指示人正在对佩戴者讲话的可能性的姿势。作为另一示例,近眼显示设备可以使用二维图像数据来检测人正朝向佩戴者,诸如通过应用面部检测算法来进行检测,面部检测算法可以指示人正在对佩戴者讲话的可能性。
此外,如上所述,近眼显示设备可以被配置为在获取用于诸如面部识别等分析的二维图像数据之前,经由来自第一传感器的数据首先检测人的可能的存在。这可以有助于节省功率并降低近眼显示设备的热输出。由此,检测语音可能正指向佩戴者可以进一步包括:在322处经由从深度传感器接收到的深度图像数据流来检测人的可能的存在,并且然后作为响应,通过面向外的图像传感器来获取二维图像数据,以用于过程318-320的分析。
检测语音可能正指向佩戴者还可以包括:在324处,经由定向音频数据来检测人可能正在对佩戴者讲话,例如检测到的语音来自朝向佩戴者的方向。在一些示例中,声音和/或语音识别技术可以用于讲话的人并且检测某些感兴趣的词(例如用户的姓名),这样的词可以指示语音可能正指向佩戴者。检测还可以包括:在326处,经由从正在被人使用的另一设备接收到的传感器数据,检测人可能正在对佩戴者讲话。来自外部设备的传感器数据可以被利用,例如在多个显示设备正由多个用户使用的场景中,诸如在如上关于图2所描绘的多用户沉浸式体验中。应当理解,近眼显示设备可以采用上述过程中的任何一个或多个,和/或可以使用任何其他合适的传感器数据。
继续图3B,方法300包括:在328处,响应于检测到语音可能正指向佩戴者,衰减在近眼显示设备上呈现的内容的听觉分量的方面。衰减音频例如可以包括如330所示的,减小听觉分量的音量。减少听觉分量的音量可以包括:减少全局音量;如332所示的,与多声道音频内容的第二声道子集相比,不同地减少多声道音频内容的第一声道子集的音量;如334所示的,与第二频率相比,不同地减小第一频率的音量;或者以任何其他合适的方式减小音量。在一些示例中,如336所示,可以通过逐渐衰退来减小音量。此外,音量可以减小到预定水平,减小到适当低于检测到的语音的音量,或者可以被完全衰减。作为又一示例,近眼显示设备可以被配置为在338处暂停正在呈现的内容。
在一些示例中,可以将逻辑应用于接收到的传感器数据,以确定以何种方式衰减听觉分量的方面。例如,当近眼显示设备检测到人可能正在对佩戴者讲话时,音频可以初始地被减小音量,然后当检测到佩戴者正在响应讲话时,音频可以被完全暂停。
另外,在近眼显示设备向佩戴者呈现虚拟现实体验以使得真实世界背景世界对用户不可见的情况下,方法300还可以包括:在340处,除衰减听觉分量的方面之外,提供真实世界视图的视频馈送。这可以帮助佩戴者更好地将他/她的注意力引导到讲话的人。
然后,方法300包括:在342处,确定可能指向佩戴者的语音可能已经停止,并且作为响应,恢复听觉分量的被衰减的方面。例如,可以将全局音量或特定于声道的音量增加到衰减之前使用的水平,可以将各种频率的音量调节到衰减前水平,可以恢复被暂停的播放,和/或可以执行任何其他恢复动作。在一些示例中,近眼显示设备可以在确定语音已经停止之后等待预定量的时间,然后恢复音频分量的方面。这可以提供一个缓冲时段,在这个时段中听觉分量保持被衰减,以考虑语音/对话中的暂停。
图4示出了示例性近眼显示系统400的框图。近眼显示设备202、204和206各自表示近眼显示系统400的示例实现。显示系统400包括一个或多个透镜402,这样的透镜402形成显示子系统404的一部分,使得图像可以经由透镜402被显示(例如,通过到透镜402上的投影,结合到透镜402中的(多个)波导系统,和/或以任何其他合适的方式)。显示子系统404可以包括背光和微显示器,诸如液晶显示器(LCD)或硅基液晶(LCOS)显示器,结合一个或多个发光二极管(LED),激光二极管和/或其他光源。在其他示例中,显示子系统404可以利用量子点显示技术,有源矩阵有机LED(OLED)技术和/或任何其他合适的显示技术。
显示系统400还包括传感器子系统406,该传感器子系统406包括:一个或多个面向外的图像传感器408,这样的图像传感器408被配置为获取真实世界环境的图像,诸如检测除显示系统的佩戴者之外的人的存在;以及一个或多个麦克风410,这样的麦克风410被配置为检测声音,诸如可能指向佩戴者的语音。面向外的图像传感器408可以包括(多个)深度传感器和/或(多个)二维图像传感器(例如,RGB图像传感器)。近眼显示系统400可以经由显示子系统404显示完全虚拟的场景,可以使用来自面向外的图像传感器的数据、经由取景器模式显示基于视频的增强现实图像,或者可以经由透视显示子系统来显示增强现实图像。
传感器子系统406还可以包括注视检测子系统412,该注视检测子系统412被配置为检测用户的注视方向,作为用于计算设备动作的用户输入。注视检测子系统412可以被配置为以任何合适的方式确定用户的每个眼睛的注视方向。例如,在所描述的实施例中,注视检测子系统412包括:一个或多个闪烁源414,诸如是被配置为使得闪烁的光从用户的每个眼球反射的红外光源;以及一个或多个图像传感器416,诸如面向内的传感器,被配置为捕获用户的每个眼球的图像。从经由图像传感器416收集的图像数据确定出来自用户眼球的闪烁的变化和/或用户瞳孔的位置可以被用于确定注视方向。注视检测子系统412可以具有任何合适数目和布置的光源和图像传感器。在其他示例中,注视检测子系统412可以被省略。
如上所述,显示系统400还可以包括另外的传感器。例如,显示系统400可以包括(多个)非成像传感器418,这样的非成像传感器418的示例可以包括但不限于:加速度计、陀螺传感器、全球定位系统(GPS)传感器和惯性测量单元(IMU)。这样的(多个)传感器可以有助于确定显示设备在环境中的定位、位置和/或定向,这可以用于有助于确定正被其他人使用的其他显示设备相对于显示系统400的定位、位置和/或定向,例如当有助于检测何时人可能正在对显示系统400的佩戴者讲话。
运动传感器以及(多个)麦克风410和注视检测子系统412也可以用作用户输入设备,使得用户可以通过眼睛、颈部和/或头的姿势以及通过口头命令来与显示系统400交互。应当理解,图4所示的传感器仅是为了示例的目的而被示出,而无意以任何方式进行限制,因为任何其他合适的传感器和/或传感器的组合均可以被使用。
显示系统400还包括一个或多个扬声器420,例如用于向用户提供音频输出以进行用户交互。显示系统400还包括控制器422,控制器422具有逻辑子系统424和存储子系统426,这些子系统与传感器、注视检测子系统412、显示子系统404和/或其他组件通信。存储子系统426包括存储在其上的指令,这样的指令由逻辑子系统424可执行以例如执行与如本文所公开的对所呈现内容的音频分量进行衰减相关的各种任务。逻辑子系统424包括被配置为执行指令的一个或多个物理设备。通信子系统428可以被配置为将显示系统400与一个或多个其他计算设备通信耦合。逻辑子系统424、存储子系统426和通信子系统428将在下面关于图5更详细地描述。
出于示例的目的描述了近眼显示系统400,因此该系统并不意味着限制。应当理解,在不脱离本公开的范围的情况下,除了显示出的那些设备之外,近眼显示系统400可以包括附加的和/或备选的传感器、照相机、麦克风、输入设备、输出设备等。近眼显示系统400可以被实现为虚拟现实显示系统或增强现实系统。另外,在不脱离本公开的范围的情况下,显示设备及其各种传感器和子组件的物理配置可以采用各种不同的形式。此外,应当理解,本文描述的方法和过程可以被实现为计算机应用程序或服务、应用程序编程接口(API)、库和/或其他计算机程序产品。这样的计算机程序产品可以在近眼显示系统400或其他合适的显示系统上本地可执行,或者可以在与近眼显示系统400通信的计算系统上可远程执行。
图5示意性示出了可以实施上述方法和过程中的一个或多个的计算系统500的非限制性示例。计算系统500以简化形式被示出。计算系统500可以采用以下设备的形式:一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如,智能电话)和/或其他计算设备。其他计算设备包括但不限于以上描述的可穿戴设备和/或服务器设备。
计算系统500包括逻辑子系统502和存储子系统504。计算系统500可以可选地包括显示子系统506、输入子系统508、通信子系统510和/或图5中未示出的其他组件。
逻辑子系统502包括被配置为执行指令的一个或多个物理设备。例如,逻辑子系统502可以被配置为执行作为一个或多个应用程序、服务、程序、例程、库、对象、组件、数据结构或其他逻辑构造的一部分的指令。这样的指令可以被实现以执行任务、实现数据类型、转换一个或多个组件的状态、获得技术效果、或以其他方式达到期望的结果。
逻辑子系统502可以包括被配置为执行软件指令的一个或多个处理器。附加地或备选地,逻辑子系统502可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑子系统。逻辑子系统502的处理器可以是单核或多核的,并且在处理器上执行的指令可以被配置用于顺序、并行和/或分布式处理。逻辑子系统502的各个组件可选地可以被分布在两个或更多单独的设备中,这些设备可以远程被定位和/或配置用于协同处理。逻辑子系统502的各方面可以由配置在云计算配置中的远程可访问的联网计算设备虚拟化和执行。
存储子系统504包括一个或多个物理设备,这样的物理设备被配置为保存由逻辑子系统502可执行的指令,以实现本文描述的方法和过程。当实现这样的方法和过程时,存储子系统504的状态可以被变换,例如以保存不同的数据。
存储子系统504可以包括可移动和/或内置设备。存储子系统504可以包括光学存储器(例如,CD、DVD、HD-DVD、蓝光盘等),半导体存储器(例如,RAM,EPROM,EEPROM等)和/或磁存储器(例如,硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等),等等。存储子系统504可以包括易失性、非易失性、动态、静态、读/写、只读、随机访问、顺序访问、位置可寻址、文件可寻址和/或内容可寻址设备。
应当理解,存储子系统504包括一个或多个物理设备。然而,本文描述的指令的各方面备选地可以由通信介质(例如,电磁信号、光信号等)传播,这样的通信介质不会被物理设备保持一段有限持续时间。
逻辑子系统502和存储子系统504的方面可以一起集成到一个或多个硬件逻辑组件中。这样的硬件逻辑组件例如可以包括现场可编程门阵列(FPGA)、程序专用电路和应用专用集成电路(PASIC/ASIC)、程序专用标准产品和应用专用标准产品(PSSP/ASSP)、片上芯片(SOC)和复杂可编程逻辑器件(CPLD)。
当被包括时,显示子系统506可以用于呈现由存储子系统504保存的数据的视觉表示。这样的视觉表示可以采取被呈现用于沉浸式虚拟或增强现实体验的虚拟对象和图像的形式。由于本文描述的方法和过程改变由存储子系统保持的数据,并因此改变存储子系统的状态,所以显示子系统506的状态同样可以被转换以在视觉上表示底层数据的变化。显示子系统506可以包括利用几乎任何类型的技术的一个或多个显示设备。这样的显示设备可以与共享封装中的逻辑子系统502和/或存储子系统504组合,或者这种显示设备可以是外围显示设备。
当被包括时,输入子系统508可以包括一个或多个用户输入设备或者与一个或多个用户输入设备对接,这样的用户输入设备例如是键盘、鼠标、触摸屏或游戏控制器。在一些实施例中,输入子系统可以包括选定的自然用户输入(NUI)元件部分或者与选定的自然用户输入(NUI)元件部分对接。这样的元件部分可以是集成的或外围的,并且输入动作的转换和/或处理可以在板上或板外处理。示例NUI元件部分可以包括用于语音和/或语音识别的麦克风;用于机器视觉和/或手势识别的红外、彩色、立体和/或深度相机;用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计和/或陀螺仪;以及用于评估大脑活动的电场感应元件部分。
通信子系统510可以被配置为将计算系统500与一个或多个其他计算设备通信耦合。通信子系统510可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例,通信子系统510可以被配置用于经由无线电话网络、或者有线或无线局域网、或者广域网络进行通信。在一些实施例中,通信子系统510可以允许计算系统500经由诸如因特网之类的网络向其他设备发送消息和/或从其他设备接收消息。
另一示例提供了一种近眼显示设备,包括:传感器子系统,包括一个或多个图像传感器;逻辑子系统;以及存储子系统,存储指令,指令由逻辑子系统可执行以:从传感器子系统接收图像传感器数据,呈现内容,内容包括视觉分量和听觉分量,在呈现内容时,经由图像传感器数据来检测语音可能正指向近眼显示设备的佩戴者,响应于检测到语音可能正指向佩戴者,衰减听觉分量的方面。指令可以附加地或备选地可执行以通过以下来检测语音可能正指向佩戴者:经由图像传感器数据,基于检测人的脸部来检测人可能正对佩戴者讲话。传感器子系统可附加地或备选地包括麦克风阵列,并且指令可以附加地或备选地可执行以通过以下来检测语音可能正指向佩戴者:经由从麦克风阵列接收到的定向音频数据来检测人可能正在对佩戴者讲话。指令可以附加地或备选地可执行以通过以下来检测语音可能正指向佩戴者:经由从正在被人使用的另一设备接收到的传感器数据来检测人可能正在对佩戴者讲话。指令可以附加地或备选地可执行以通过检测以下一项或多项来检测人可能正在对佩戴者讲话、从而检测语音可能正指向佩戴者:人在距佩戴者的阈值距离内,以及人正朝向佩戴者。指令可以附加地或备选地可执行以通过减小听觉分量的音量来衰减听觉分量的方面。听觉分量可以附加地或备选地包括多声道音频内容,并且指令可以附加地或备选地可执行以:与多声道音频内容的第二声道子集相比,不同地减少多声道音频内容的第一声道子集的音量。指令可以附加地或备选地可执行以通过暂停正在被呈现的内容来衰减听觉分量的方面。指令可以附加地或备选地可执行以:确定可能正指向佩戴者的语音可能已经停止,并且作为响应,恢复听觉分量的方面。可执行以接收传感器数据的指令可以附加地或备选地包括可执行以从一个或多个深度图像传感器接收深度图像数据流的指令,并且指令可以附加地或备选地可执行以:经由深度图像数据流来检测人的可能的存在,并且作为响应,利用面向外的二维相机获取二维图像数据,并且经由二维图像数据检测人可能正在对佩戴者讲话。近眼显示设备可以附加地或备选地包括虚拟现实显示设备,并且指令可以附加地或备选地可执行以:在检测到语音可能正指向佩戴者时,提供现实世界视图的视频馈送。
另一示例提供了一种在头戴式近眼显示设备上的方法,头戴式近眼显示设备包括传感器子系统和一个或多个图像传感器,该方法包括:从传感器子系统接收图像传感器数据,在近眼显示设备上呈现内容,内容包括可视分量和听觉分量,当在近眼显示设备上呈现内容时,经由图像传感器数据来检测语音可能正指向近眼显示设备的佩戴者,并且响应于检测到语音可能正指向近眼显示设备的佩戴者,衰减听觉分量的方面。检测语音可能正指向佩戴者可以附加地或备选地包括:经由图像传感器数据,基于检测人的脸部来检测人可能正在对佩戴者讲话。检测语音可能正指向佩戴者可以附加地或备选地包括:经由从传感器子系统的麦克风阵列接收到的定向音频数据,来检测人可能正在对佩戴者讲话。检测语音可能正指向佩戴者可以附加地或备选地包括:经由从正在被人使用的另一设备接收到的传感器数据,来检测人可能正在对佩戴者讲话。减弱听觉分量的方面可以附加地或备选地包括减小听觉分量的音量。
又一示例提供了一种近眼显示设备,包括:传感器子系统,包括一个或多个图像传感器;逻辑子系统;存储子系统,存储指令,指令由逻辑子系统可执行以:从传感器子系统接收图像传感器数据,呈现内容,内容包括视觉分量和听觉分量,在呈现内容时,经由图像传感器数据检测语音可能正指向近眼显示设备的佩戴者,并且响应于检测到语音可能正指向佩戴者,衰减听觉分量的方面。听觉分量可以附加地或备选地包括多声道音频内容,并且可执行以减少听觉分量的音量的指令可以附加地或备选地包括:可执行以与多声道音频内容的第二声道子集相比不同地减少多声道音频内容的第一声道子集的音量的指令。指令可以附加地或备选地可执行以通过以下来检测语音可能正指向佩戴者:经由图像传感器数据,基于检测人的脸部来检测人可能正在对佩戴者讲话。指令可以附加地或备选地可执行以通过检测以下一项或多项来检测人可能正在对佩戴者讲话、从而检测语音可能正指向佩戴者:人在距佩戴者的阈值距离内,以及人正朝向佩戴者。
应当理解,本文描述的配置和/或方法本质上是示例性的,并且这些具体实施例或示例不应被视为具有限制意义,因为许多变型是可能的。本文描述的特定例程或方法可以表示任何数目的处理策略中的一个或多个。如此,所示出和/或描述的各种动作可以以所示和/或描述的顺序、以其他顺序、并行或省略来执行。同样,可以改变上述过程的顺序。
本公开的主题包括本文公开的各种过程、系统和配置以及其他特征、功能、动作和/或性质的所有新颖和非显而易见的组合和子组合、以及其任何和所有等同物。

Claims (15)

1.一种近眼显示设备,包括:
传感器子系统,包括一个或多个图像传感器;
逻辑子系统;以及
存储子系统,存储指令,所述指令由所述逻辑子系统可执行以:
从所述传感器子系统接收图像传感器数据,
呈现内容,所述内容包括视觉分量和听觉分量,
在呈现所述内容时,经由所述图像传感器数据来检测语音可能正指向所述近眼显示设备的佩戴者,以及
响应于检测到语音可能正指向所述佩戴者,衰减所述听觉分量的方面。
2.根据权利要求1所述的近眼显示设备,其中可执行以检测所述语音可能正指向所述佩戴者的所述指令包括:可执行以经由所述图像传感器数据、基于检测人的脸部来检测所述人可能正在对所述佩戴者讲话的指令。
3.根据权利要求1所述的近眼显示设备,其中所述传感器子系统包括麦克风阵列,并且其中可执行以检测所述语音可能正指向所述佩戴者的所述指令包括:可执行以经由从所述麦克风阵列接收到的定向音频数据来检测人可能正在对所述佩戴者讲话的指令。
4.根据权利要求1所述的近眼显示设备,其中可执行以检测所述语音可能正指向所述佩戴者的所述指令包括:可执行以经由从正在被人使用的另一设备接收到的传感器数据来检测所述人可能正在对所述佩戴者讲话的指令。
5.根据权利要求1所述的近眼显示设备,其中可执行以检测所述语音可能正指向所述佩戴者的所述指令包括可执行以通过检测以下一项或多项来检测人可能正在对所述佩戴者讲话的指令:所述人在距所述佩戴者的阈值距离内,以及所述人正朝向所述佩戴者。
6.根据权利要求1所述的近眼显示设备,其中可执行以衰减所述听觉分量的方面的所述指令包括:可执行以减小所述听觉分量的音量的指令。
7.根据权利要求1所述的近眼显示设备,其中所述听觉分量包括多声道音频内容,并且其中可执行以衰减所述听觉分量的方面的所述指令包括:可执行以与所述多声道音频内容的第二声道子集相比不同地减少所述多声道音频内容的第一声道子集的音量的指令。
8.根据权利要求1所述的近眼显示设备,其中可执行以衰减所述听觉分量的方面的所述指令包括:可执行以暂停正在被呈现的所述内容的指令。
9.根据权利要求1所述的近眼显示设备,其中所述指令还可执行以:确定可能正指向所述佩戴者的所述语音可能已经停止,并且作为响应,恢复所述听觉分量的所述方面。
10.根据权利要求1所述的近眼显示设备,其中可执行以接收传感器数据的所述指令包括可执行以从一个或多个深度图像传感器接收深度图像数据流的指令,并且其中所述指令还可执行以:经由所述深度图像数据流检测人的可能的存在,并且作为响应,利用面向外的二维相机获取二维图像数据,并且经由所述二维图像数据检测所述人可能正在对所述佩戴者讲话。
11.根据权利要求1所述的近眼显示设备,其中所述近眼显示设备包括虚拟现实显示设备,并且其中所述指令还可执行以:在检测到所述语音可能正指向所述佩戴者时,提供现实世界视图的视频馈送。
12.一种在头戴式近眼显示设备上的方法,所述头戴式近眼显示设备包括传感器子系统和一个或多个图像传感器,所述方法包括:
从所述传感器子系统接收图像传感器数据;
在所述近眼显示设备上呈现内容,所述内容包括可视分量和听觉分量;
当在所述近眼显示设备上呈现所述内容时,经由所述图像传感器数据检测语音可能正指向所述近眼显示设备的佩戴者;以及
响应于检测到语音可能正指向所述近眼显示设备的所述佩戴者,衰减所述听觉分量的方面。
13.根据权利要求12所述的方法,其中检测语音可能正指向所述佩戴者包括:经由所述图像传感器数据,基于检测人的脸部来检测所述人可能正在对所述佩戴者讲话。
14.根据权利要求12所述的方法,其中检测所述语音可能正指向所述佩戴者包括:经由从所述传感器子系统的麦克风阵列接收到的定向音频数据,来检测人可能正在对所述佩戴者讲话。
15.根据权利要求12所述的方法,其中检测所述语音可能正指向所述佩戴者包括:经由从正在被人使用的另一设备接收到的传感器数据,来检测所述人可能正在对所述佩戴者讲话。
CN201780034195.3A 2016-06-02 2017-05-24 沉浸式显示设备上的自动音频衰减 Active CN109313911B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/172,080 2016-06-02
US15/172,080 US10089071B2 (en) 2016-06-02 2016-06-02 Automatic audio attenuation on immersive display devices
PCT/US2017/034100 WO2017210035A1 (en) 2016-06-02 2017-05-24 Automatic audio attenuation on immersive display devices

Publications (2)

Publication Number Publication Date
CN109313911A true CN109313911A (zh) 2019-02-05
CN109313911B CN109313911B (zh) 2023-05-26

Family

ID=59227882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780034195.3A Active CN109313911B (zh) 2016-06-02 2017-05-24 沉浸式显示设备上的自动音频衰减

Country Status (4)

Country Link
US (1) US10089071B2 (zh)
EP (1) EP3465680B1 (zh)
CN (1) CN109313911B (zh)
WO (1) WO2017210035A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949793A (zh) * 2019-03-06 2019-06-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111326175A (zh) * 2020-02-18 2020-06-23 维沃移动通信有限公司 一种对话者的提示方法及穿戴设备
CN112423190A (zh) * 2019-08-20 2021-02-26 苹果公司 用于头戴式设备的基于音频的反馈

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10748542B2 (en) 2017-03-23 2020-08-18 Joyson Safety Systems Acquisition Llc System and method of correlating mouth images to input commands
US10810773B2 (en) * 2017-06-14 2020-10-20 Dell Products, L.P. Headset display control based upon a user's pupil state
GB2565315B (en) * 2017-08-09 2022-05-04 Emotech Ltd Robots, methods, computer programs, computer-readable media, arrays of microphones and controllers
US11016729B2 (en) * 2017-11-08 2021-05-25 International Business Machines Corporation Sensor fusion service to enhance human computer interactions
KR102433393B1 (ko) * 2017-12-12 2022-08-17 한국전자통신연구원 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법
CN110431513B (zh) * 2018-01-25 2020-11-27 腾讯科技(深圳)有限公司 媒体内容发送方法、装置及存储介质
JP7140542B2 (ja) * 2018-05-09 2022-09-21 キヤノン株式会社 信号処理装置、信号処理方法、およびプログラム
US10607367B2 (en) * 2018-06-26 2020-03-31 International Business Machines Corporation Methods and systems for managing virtual reality sessions
DE102018212902A1 (de) * 2018-08-02 2020-02-06 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Bestimmen eines digitalen Assistenten zum Ausführen einer Fahrzeugfunktion aus einer Vielzahl von digitalen Assistenten in einem Fahrzeug, computerlesbares Medium, System, und Fahrzeug
US10861457B2 (en) * 2018-10-26 2020-12-08 Ford Global Technologies, Llc Vehicle digital assistant authentication
US10871939B2 (en) * 2018-11-07 2020-12-22 Nvidia Corporation Method and system for immersive virtual reality (VR) streaming with reduced audio latency
CN110196914B (zh) * 2019-07-29 2019-12-27 上海肇观电子科技有限公司 一种将人脸信息录入数据库的方法和装置
KR20210112726A (ko) * 2020-03-06 2021-09-15 엘지전자 주식회사 차량의 좌석별로 대화형 비서를 제공하는 방법
TWI757940B (zh) * 2020-10-29 2022-03-11 宏碁股份有限公司 視訊會議系統及其排除打擾的方法
KR20220059629A (ko) * 2020-11-03 2022-05-10 현대자동차주식회사 차량 및 그의 제어방법
WO2022125351A2 (en) * 2020-12-09 2022-06-16 Cerence Operating Company Automotive infotainment system with spatially-cognizant applications that interact with a speech interface
CN113660347B (zh) * 2021-08-31 2024-05-07 Oppo广东移动通信有限公司 数据处理方法、装置、电子设备和可读存储介质
US20230132041A1 (en) * 2021-10-27 2023-04-27 Google Llc Response to sounds in an environment based on correlated audio and user events
US20230306968A1 (en) * 2022-02-04 2023-09-28 Apple Inc. Digital assistant for providing real-time social intelligence

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110096939A1 (en) * 2009-10-28 2011-04-28 Sony Corporation Reproducing device, headphone and reproducing method
US20120235886A1 (en) * 2010-02-28 2012-09-20 Osterhout Group, Inc. See-through near-eye display glasses with a small scale image source
CN102893236A (zh) * 2010-07-20 2013-01-23 英派尔科技开发有限公司 增强现实临近检测
US20140108501A1 (en) * 2012-10-17 2014-04-17 Matthew Nicholas Papakipos Presence Granularity with Augmented Reality
US20160027209A1 (en) * 2014-07-25 2016-01-28 mindHIVE Inc. Real-time immersive mediated reality experiences

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070189544A1 (en) 2005-01-15 2007-08-16 Outland Research, Llc Ambient sound responsive media player
US7903825B1 (en) 2006-03-03 2011-03-08 Cirrus Logic, Inc. Personal audio playback device having gain control responsive to environmental sounds
US7986791B2 (en) 2006-10-17 2011-07-26 International Business Machines Corporation Method and system for automatically muting headphones
US8264505B2 (en) 2007-12-28 2012-09-11 Microsoft Corporation Augmented reality and filtering
US8957835B2 (en) 2008-09-30 2015-02-17 Apple Inc. Head-mounted display apparatus for retaining a portable electronic device with display
US9213405B2 (en) 2010-12-16 2015-12-15 Microsoft Technology Licensing, Llc Comprehension and intent-based content for augmented reality displays
US8831255B2 (en) 2012-03-08 2014-09-09 Disney Enterprises, Inc. Augmented reality (AR) audio with position and action triggered virtual sound effects
US9514570B2 (en) 2012-07-26 2016-12-06 Qualcomm Incorporated Augmentation of tangible objects as user interface controller
US11270498B2 (en) 2012-11-12 2022-03-08 Sony Interactive Entertainment Inc. Real world acoustic and lighting modeling for improved immersion in virtual reality and augmented reality environments
US10359841B2 (en) 2013-01-13 2019-07-23 Qualcomm Incorporated Apparatus and method for controlling an augmented reality device
US10133342B2 (en) 2013-02-14 2018-11-20 Qualcomm Incorporated Human-body-gesture-based region and volume selection for HMD
US9245387B2 (en) 2013-04-12 2016-01-26 Microsoft Technology Licensing, Llc Holographic snap grid
CN104240277B (zh) 2013-06-24 2019-07-19 腾讯科技(深圳)有限公司 基于人脸检测的增强现实交互方法和系统
US8874448B1 (en) * 2014-04-01 2014-10-28 Google Inc. Attention-based dynamic audio level adjustment
US9922667B2 (en) 2014-04-17 2018-03-20 Microsoft Technology Licensing, Llc Conversation, presence and context detection for hologram suppression
US10529359B2 (en) * 2014-04-17 2020-01-07 Microsoft Technology Licensing, Llc Conversation detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110096939A1 (en) * 2009-10-28 2011-04-28 Sony Corporation Reproducing device, headphone and reproducing method
US20120235886A1 (en) * 2010-02-28 2012-09-20 Osterhout Group, Inc. See-through near-eye display glasses with a small scale image source
CN102893236A (zh) * 2010-07-20 2013-01-23 英派尔科技开发有限公司 增强现实临近检测
US20140108501A1 (en) * 2012-10-17 2014-04-17 Matthew Nicholas Papakipos Presence Granularity with Augmented Reality
US20160027209A1 (en) * 2014-07-25 2016-01-28 mindHIVE Inc. Real-time immersive mediated reality experiences

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949793A (zh) * 2019-03-06 2019-06-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN112423190A (zh) * 2019-08-20 2021-02-26 苹果公司 用于头戴式设备的基于音频的反馈
US11740316B2 (en) 2019-08-20 2023-08-29 Apple Inc. Head-mountable device with indicators
CN111326175A (zh) * 2020-02-18 2020-06-23 维沃移动通信有限公司 一种对话者的提示方法及穿戴设备

Also Published As

Publication number Publication date
US10089071B2 (en) 2018-10-02
WO2017210035A1 (en) 2017-12-07
EP3465680B1 (en) 2020-09-09
US20170351485A1 (en) 2017-12-07
EP3465680A1 (en) 2019-04-10
CN109313911B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN109313911A (zh) 沉浸式显示设备上的自动音频衰减
JP6348176B2 (ja) 適応イベント認識
EP2994912B1 (en) Speech to text conversion
JP6612250B2 (ja) 会話検出
KR102194164B1 (ko) 홀로그램 객체 피드백
US20200073122A1 (en) Display System
TWI549505B (zh) 用於擴展現實顯示的基於理解力和意圖的內容
US9791921B2 (en) Context-aware augmented reality object commands
JP2017513093A (ja) 注視の検出を介した遠隔デバイスの制御
US20190320138A1 (en) Real-world awareness for virtual reality
CN106660205A (zh) 用于处理类人机器人与人类交互的系统、方法和计算机程序产品
US11703944B2 (en) Modifying virtual content to invoke a target user state
JP2022515307A (ja) インタラクティブオブジェクト駆動方法、装置、電子デバイス及び記憶媒体
US20230290047A1 (en) Interactions during a video experience
US11334147B1 (en) Visual question and answer based training and runtime methods
US20240038228A1 (en) Power-Sensitive Control of Virtual Agents
US12008720B1 (en) Scene graph assisted navigation
JP7397883B2 (ja) 環境に基づく通信データの提示
US20230315509A1 (en) Automatic Determination of Application State in a Multi-User Environment
US20230394755A1 (en) Displaying a Visual Representation of Audible Data Based on a Region of Interest
CN118131913A (zh) 数字助理对象放置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant