CN116324969A - 具有定位反馈的听力增强和可穿戴系统 - Google Patents

具有定位反馈的听力增强和可穿戴系统 Download PDF

Info

Publication number
CN116324969A
CN116324969A CN202180069204.9A CN202180069204A CN116324969A CN 116324969 A CN116324969 A CN 116324969A CN 202180069204 A CN202180069204 A CN 202180069204A CN 116324969 A CN116324969 A CN 116324969A
Authority
CN
China
Prior art keywords
event
wearable device
user
location
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180069204.9A
Other languages
English (en)
Inventor
J·凯默勒
E·D·奎泽三世
张朔
C·A·科特利
姜峻岩
黄传哲
L·威斯腾多夫
T·雷利
T·卡尔德维尔
刘扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bose Corp
Original Assignee
Bose Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bose Corp filed Critical Bose Corp
Publication of CN116324969A publication Critical patent/CN116324969A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/016Input arrangements with force or tactile feedback as computer generated output to the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1783Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions
    • G10K11/17837Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions by retaining part of the ambient acoustic environment, e.g. speech or alarm signals that the user needs to hear
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17879General system configurations using both a reference signal and an error signal
    • G10K11/17881General system configurations using both a reference signal and an error signal the reference signal being an acoustic signal, e.g. recorded with a microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/80Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/111Directivity control or beam pattern
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3023Estimation of noise, e.g. on error signals
    • G10K2210/30231Sources, e.g. identifying noisy processes or components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Stereophonic System (AREA)
  • Headphones And Earphones (AREA)

Abstract

本公开的方面提供了用于当用户正穿戴可穿戴设备时向该用户提供事件的反馈的技术,包括实现这些技术的设备和系统。例如,该可穿戴设备可以向该用户提供高质量的噪声消除音频回放,从而降低该用户的情境感知。这些技术包括使用该可穿戴设备上的两个或更多个麦克风来测量环境声音。所测量的环境声音用于确定值得中继到该用户的相关事件。基于位置属性和声音特性,可以根据用户阈值设置使用模式辨识算法来探知该事件的性质和/或分类。该用户偏向于忽略的不重要事件将被该算法排除。在确定值得该用户注意的该事件后,该可穿戴设备向该用户提供指示该事件的该性质和位置的反馈。

Description

具有定位反馈的听力增强和可穿戴系统
相关申请的交叉引用
本申请要求2020年9月22日提交的美国专利申请第17/027,919号的权益和优先权,该美国专利申请已转让给本发明的受让人并且其全文以引用方式并入本文,如同在下文中全面阐述并用于所有适用目的。
技术领域
本公开的方面整体涉及无线通信,并且更具体地涉及音频信号处理,所述音频信号处理涉及与计算设备进行无线通信的可穿戴设备。
背景技术
可穿戴设备可以通过掩蔽、抵御或消除环境噪声来向用户提供期望的传输或再现的音频体验。由可穿戴设备生成的高音量输出或白噪声可能掩蔽环境噪声。隔音通过反射或吸收声音能量来降低声压。噪声消除或主动噪声控制/降低通过添加消除环境噪声的第二声音来降低环境噪声。在这些情况下,用户可能未能注意到需要注意的事件,诸如环境中的警报、警告声音或口头通信。此外,如果用户专注于手头的任务,则用户可能缺乏原本可用于向用户通知此类事件的其他感官(例如,视觉)。
因此,需要用于向用户提供关于特定背景事件的适当且非侵入性(例如,保留期望的音频体验)通知的方法以及被配置为实现这些方法的装置和系统。
发明内容
本文提及的所有示例和特征均可以任何技术上可能的方式组合。
本公开的方面提供了一种用于向可穿戴设备的用户提供反馈的方法。该方法包括使用该可穿戴设备上的两个或更多个麦克风来测量环境声音;基于所测量的环境声音来确定事件;确定该事件相对于该可穿戴设备的位置属性;以及基于该事件和该位置属性来向该用户提供反馈。
在方面中,基于该事件和该位置属性来向该用户提供反馈包括除了该音频内容之外还播放空间化音频提示。
在方面中,基于所测量的环境声音来确定该事件包括:测量该事件的声音水平的量值;以及使用与该事件相关联的音频信号来确定该事件相对于该可穿戴设备的位置,其中基于从该音频信号处理的方向和距离来确定该事件的该位置,并且其中该事件的该位置属性包括该方向或该距离中的至少一者。在一些情况下,基于该环境声音来确定该事件还包括基于以下各项中的至少一者来排除事件事情:该事件相对于该可穿戴设备的该位置;与该事件相关联的该音频信号中的复现模式;或者与该事件相关联的该音频信号的属性。
在方面中,基于所测量的环境声音来确定该事件包括确定该事件的该声音水平的该量值超过对应于该事件相对于该可穿戴设备的该位置的阈值。在一些情况下,该阈值基于该事件相对于该可穿戴设备的该位置而变化,并且该阈值随着该事件的该位置变得更接近该用户而增大。
在方面中,基于该环境声音来确定该事件至少部分地基于使以下各项相关:i)该事件相对于该可穿戴设备的该位置、ii)与该事件相关联的该音频信号中的该复现模式,以及iii)与该事件相关联的该音频信号的该属性。在一些情况下,确定该事件至少部分地基于由人工智能使用以下各项的数据来执行的深度学习分析:该事件相对于该可穿戴设备的该位置、与该事件相关联的该音频信号中的该复现模式,以及与该事件相关联的该音频信号的该属性。
在方面中,基于该事件来向该用户提供反馈包括以下各项中的至少一者:使用该可穿戴设备的至少一个扬声器来播放空间化声音;使用该可穿戴设备来提供指示方向的触觉通知;或者在连接到该可穿戴设备的一个或多个设备上显示通知。
在一些情况下,该空间化声音表示所确定的事件相对于该用户的位置,其中所表示的位置基于至少该位置属性。
在方面中,该方法还包括基于由该可穿戴设备测量的运动信号的模式来确定该用户处于专注状态,其中基于该事件和该位置属性来向该用户提供反馈基于所确定的专注状态。在一些情况下,确定该用户处于该专注状态包括处理由设置在该可穿戴设备上的一个或多个惯性测量单元(IMU)测量的运动信号的该模式。
在方面中,该可穿戴设备上的该两个或更多个麦克风包括被定位成测量该用户周围的该环境声音的至少三个麦克风。
在方面中,该可穿戴设备是穿戴在该用户的头部或颈部中的至少一者上的音频设备。
在方面中,该可穿戴设备包括以下各项中的至少一者:包耳式耳机、贴耳式耳机、入耳式耳机、耳塞、真无线耳塞、眼镜、头带、颈带、耳挂、耳夹、头戴式音频设备或颈戴式音频设备。
在方面中,该可穿戴设备是噪声消除音频设备。
本公开的方面提供了一种用于向用户提供空间化反馈的系统。该系统包括:可穿戴设备,该可穿戴设备具有被配置为测量环境声音的两个或更多个麦克风;和与该可穿戴设备连接的计算设备。该计算设备被配置为:基于所测量的环境声音来确定事件、确定该事件相对于该可穿戴设备的位置属性;以及使得基于该事件和该位置属性来向该用户提供反馈。
在方面中,该可穿戴设备还包括两个或更多个扬声器,该两个或更多个扬声器被配置为:播放消除所测量的环境声音的音频内容;以及通过除了该音频内容之外还播放空间化音频提示来向该用户警示所确定的事件。
在方面中,该可穿戴设备还包括用于响应于该计算设备基于该事件来向该用户提供反馈而提供触觉反馈的致动器。
在方面中,该计算被进一步配置为基于以下各项中的至少一者来排除事件事情:该事件相对于该可穿戴设备的该位置;与该事件相关联的该音频信号中的复现模式;或者与该事件相关联的该音频信号的属性。
本公开的方面提供了一种用于向可穿戴设备的用户提供反馈的方法,包括:使用该可穿戴设备上的两个或更多个麦克风来测量环境声音;基于所测量的环境声音超过阈值来确定事件,其中该阈值在对应于两个或更多个不同情境标准的两个或更多个不同配置事件中变化;以及基于所确定的事件来向该用户提供反馈。
在方面中,该两个或更多个不同情境标准中的每一者包括关于以下各项中的至少一者的定制配置:与所确定的事件相关联的该阈值;该事件相对于该可穿戴设备的位置属性;或者基于所确定的事件给该用户的该反馈。
在方面中,该定制配置由该用户输入。
在方面中,该方法还包括:将该定制配置与所确定的事件相对于该可穿戴设备的该位置属性相关联;以及基于该用户的该输入和该关联来识别用于基于该位置属性来确定一般配置规则的模式。
在方面中,该定制配置包括默认出厂配置。
在方面中,该两个或更多个不同情境标准中的每一者包括相对于该可穿戴设备的位置属性,该位置属性基于使用该可穿戴设备的该两个或更多个麦克风测量的该环境声音来确定。
在方面中,该阈值包括对应于该两个或更多个不同情境标准中的一者的最小或最大距离。
在方面中,该阈值包括对应于该两个或更多个不同情境标准中的一者的方向。
在方面中,该两个或更多个不同情境标准中的每一者对应于该可穿戴设备的物理位置。
在方面中,该两个或更多个不同情境标准中的每一者包括声音类别,该声音类别包括话音、背景声音或音乐序列中的至少一者。
在方面中,该背景声音包括警报、脚步噪声、交通噪声或声音模式。
在方面中,该阈值包括对应于该两个或更多个不同情境标准中的一者的最小声音水平。
在方面中,该阈值对应于该两个或更多个不同情境标准中的该一者的灵敏度。
在方面中,提供该反馈包括向该用户播放该环境声音的记录副本。
在方面中,播放该记录副本包括基于由该可穿戴设备中的反馈麦克风采集的数据来放大或衰减该环境声音的该记录副本。
在方面中,由该可穿戴设备的移动触发放大或衰减该环境声音的该记录副本。
在方面中,播放该记录副本包括基于该可穿戴设备的该移动来延迟播放该记录副本。
在方面中,该方法还包括使该环境声音与该位置属性相关达一时间段;生成映射该环境声音在该时间段内在不同位置处的变化的显著性图;测量该可穿戴设备在该时间段内的移动记录;以及基于该移动记录与该显著性图之间的关系来确定该用户的响应。
在方面中,确定该事件还包括:将所测量的环境声音传输到第二设备以供处理;以及从该第二设备接收所确定的事件和该对应反馈以提供给该用户,其中该第二设备具有比该可穿戴设备更大的处理能力。
本公开中所述的两个或更多个特征,包括本发明内容部分中所述的那些,可组合以形成在本文未具体描述的具体实施。
一个或多个具体实施的细节在附图和以下描述中论述。其他特征、对象和优点在说明书、附图和权利要求书中将是显而易见的。
附图说明
图1示出了可以实现本公开的方面的示例系统。
图2A示出了根据本公开的特定方面的示例性无线音频设备。
图2B示出了根据本公开的特定方面的示例性计算设备。
图3示出了根据本公开的特定方面的用于向用户提供所确定的事件和位置属性的反馈的示例操作。
图4示出了根据本公开的特定方面的用于提取事件的位置属性的示例数据处理。
图5示出了根据本公开的特定方面的所确定的事件和相关位置属性的示例视觉呈现。
图6A示出了根据本公开的特定方面的用于确定需要用户注意的事件的示例过程。
图6B示出了根据本公开的特定方面的用于确定需要用户注意的事件的示例深度学习过程。
图6C示出了根据本公开的特定方面的用于确定事件的示例深度学习过程。
图7示出了根据本公开的特定方面的用于基于声音能量来确定事件的示例过程。
图8示出了根据本公开的特定方面的用于确定用户的状态的运动数据。
图9示出了根据本公开的特定方面的用于向用户提供所确定的事件和位置属性的反馈的示例操作。
图10示出了根据本公开的特定方面的用于调整情境标准的定制配置的示例界面。
图11示出了根据本公开的特定方面的用于调整情境标准的定制配置的示例界面。
相似的标号指示相似的元件。
具体实施方式
本公开提供了用于当用户正穿戴可穿戴音频输出设备时向用户提供事件(例如,打断事件,或者需要用户注意的事件,而不是用户忽略的事件)的反馈的过程、方法、系统和设备。例如,在没有反馈的情况下,用户可能由于例如享受由可穿戴设备提供的音频体验而未能注意到事件,诸如当可穿戴设备消除环境噪声以允许用户完全沉浸在音频体验中时。根据本公开,可穿戴设备可以基于特定条件来确定事件,诸如相对于用户的声音位置、声音类别(例如,所检测到的声音的性质,诸如话音、警报等)、环境(例如,在家中、在办公室或特定房间中、在公共场所中等),以及将由定制参数限定的其他条件。
在方面中,方法包括使用可穿戴设备上的两个或更多个麦克风来测量环境声音(即,并非音频体验的一部分的声音)。基于所测量的环境声音来确定事件。确定事件的位置属性(这可称为“定位”)。然后,将所确定的事件和位置属性的反馈提供给用户。在一些情况下,基于所测量的环境声音来确定事件采用基于深度学习的算法,该深度学习识别并移除周围环境中不需要用户注意的意外事件。这些算法可使用环境声音中的声音的响度、位置和各种特性来确定事件。可以向用户呈现所确定的事件的反馈,该反馈包括例如位置属性和/或让用户知道应当将注意力引导向何处。
在方面中,基于所测量的环境声音超过阈值来确定事件。阈值可针对对应于两个或更多个不同情境标准的两个或更多个不同配置事件而变化。该两个或更多个不同情境标准可以包括以下各项中的至少一者:与所确定的事件相关联的阈值、事件相对于可穿戴设备的位置属性,或者基于所确定的事件给用户的反馈。例如,包括话音的事件和包括敲门的事件可以被配置为具有不同的检测阈值。类似地,距离五米远的事件和距离十米远的事件也可以被配置为具有不同的检测阈值。还可以基于事件相对于可穿戴设备的位置(例如,相对距离和方向)来定制阈值水平。用户还可以定制反馈的形式和特性(例如,亮度、音量和/或量值),诸如视觉、音频、其组合以及其他形式。
当使用可穿戴音频设备时,尤其是当使用旨在移除环境声音的主动噪声消除耳机时,用户通常失去至少一些情境感知。在另一示例中,当音频的音量处于掩蔽环境声音的过度水平或具有良好隔音(例如,被动声绝缘)时,情境感知降低。情境感知的另一示例是当用户借助于可穿戴音频设备(例如,消除或衰减环境声音)处于专注状态时降低,诸如当工作、学习或阅读时。减少的情境感知可能导致代价巨大或引起麻烦的后果,诸如当事件值得及时响应时。本公开提供了用于在向用户提供愉快的音频体验时向用户提供可能值得注意的事件的空间化反馈的技术。
在方面中,所公开的技术可以使用声音事件检测和表示所检测到的声音事件的音频提示来增强用户感知。在工作或居家办公的环境中,用户可能处于专注状态并且较少感知到用户的周围环境。噪声消除可穿戴设备可进一步降低用户的感知。用户可能想要或需要注意传入的口头通信、门铃或可能由可穿戴设备有效消除的其他警报或声音通知。因此,所公开的技术允许用户在不失去情境感知的情况下专注并受益于噪声消除可穿戴设备。在一些情况下,音频提示被设计成提供信息且具有最小破坏性。这允许用户在获知事件之后确定何时以及如何对事件做出反应,同时保持忽略事件的选项。在方面中,附加的可视化或通知策略与音频提示一起用于帮助用户解释事件。
使用麦克风与惯性测量单元(IMU)的组合来实现所公开的技术。例如,这些技术首先设置响度阈值以检测与基本水平噪声不同的打断事件。该步骤可以称为“事件检测”。然后,这些技术确定打断事件的一个或多个位置属性,诸如识别事件的方向和距离。然后,这些技术使用来自IMU的输入来确定用户是否可能正在引起或已经感知到所检测到的事件。如果确定事件值得用户注意,则这些技术还包括向用户提供空间化音频反馈,从而向用户通知事件的位置。
在方面中,除了打断事件的位置属性之外,可以针对不同的配置事件限定或配置不同的阈值。配置事件可以由对应的情境标准限定,诸如分贝水平(例如,事件阈值)、环境声音的特性(例如,声音类别或类型,诸如话音、警报、旋律等)、相对于用户的位置(例如,距离和方向)。情境标准可以由用户提供或可以使用默认出厂或生产简档或配置来配置。例如,用户可以经由可穿戴设备上或与可穿戴设备通信的计算机设备上的图形界面提供输入以定制该定制配置。关于图9至图10进一步讨论了示例。
在方面中,在可穿戴设备上执行定位和事件检测以最小化延迟并且提供对其上的全阵列麦克风的访问。当执行以下示例操作时,可以在事件的方向上(例如,左或右、上或下)用空间化音频提示来提示用户。第一,使用在可穿戴设备上并由(在可穿戴设备上或在外部计算设备上的)处理器连接/控制的麦克风来执行活动检测算法。如所提及的,活动检测算法可以在可穿戴设备处运行以最小化传输延迟。在一些情况下,活动检测算法可以在与可穿戴设备进行无线通信的计算设备处运行,以便使用计算设备中的更强大的处理器。活动检测算法检测声音能量的突然改变(例如,突然的分贝水平增加)以识别与环境声音分开的事件。活动检测算法检测声音的特性(诸如,话音或语音活动)以识别与环境声音分开的事件。
第二,确定事件的位置属性,并且第二层数据处理探知事件的性质。例如,通过确定事件的距离,活动检测算法可以进一步将由用户创建的声音(例如,用户自己的话音)与远场中的事件的声音(例如,跨房间的敲门声音)区分开。在一些情况下,被确定为面向用户(即,在用户前方特定距离内)的事件被忽视,因为此类事件可以由用户在视觉上获取。位置属性可以包括距离、方向或两者。可以使用由可穿戴设备中间隔开的两个或更多个麦克风捕获的音频数据来计算距离和方向。
探知事件的性质还可以包括处理声音以确定声音类别和/或声音特性。例如,不同的配置事件可以对应于不同的声音类别,诸如话音、警报或响亮的背景事件(例如,敲击、哭泣等)。针对具有特定性质的每个事件的阈值可以使用不同的灵敏度设置来调整或个性化,并且因此取决于用户的环境和偏好。
第三,将移动测量与事件相关以确定是否需要向用户通知事件。例如,缺乏由运动传感器测量的移动可以指示用户处于专注状态。在处于专注状态时,用户可能更期望事件的反馈。另外,考虑到由用户自己的移动引起的相对位置变化,移动测量可以帮助活动检测算法正确地识别位置属性。
在一些情况下,移动测量可以形成与定制配置和所确定的事件的位置属性相关联的模式。例如,用户可能通过转向一个方向来一致地/习惯性地响应事件。然后,将此类移动的模式与事件相关联。可以通过将定制配置与相对于可穿戴设备的位置属性相关联(诸如,通过基于与声音来自的地方相关联的声音类别来指定阈值)来检测事件。在一个示例中,当用户在面朝恒定方向的恒定位置处穿戴可穿戴设备时,通过窗口进入的汽笛声音可以被噪声消除和忽略(即,不被分类为需要反馈的事件)。在此类情况下,当测量到汽笛时,可以记录随机移动。可以基于随机移动来确定一般规则以忽略来自相同方向的此类汽笛声音。相比之下,通过门进入的敲击声音可能频繁地伴随有用户转向特定方向。此类响应的模式可以被记录并识别以用于确定一般配置规则,诸如当已经检测到符合所识别模式的事件时提供反馈(例如,可穿戴设备中的音频通知(在敲击声音已经被噪声消除时))。
在方面中,活动检测算法可以包括在嵌入可穿戴设备中的处理器上运行的轻质的基于阈值的数字信号处理(DSP)算法。可穿戴设备可以提供用于控制调整检测灵敏度的阈值的用户界面,诸如灵敏度滑块。例如,更灵敏的设置导致以较少仔细检查报告事件并且可能导致正误识检测增加。除了向用户提供空间化音频提示之外,可穿戴设备还可向外部计算设备提供信息。外部计算设备可以在用户界面上显示事件及其位置属性。在示例中,用户界面示出“雷达”显示,该显示向用户通知事件的性质(例如,事件的类型,诸如话音、敲击声音、警报等)以及事件相对于用户的位置。
在一些情况下,活动检测算法包括在外部计算设备上运行的事件分析算法,或者与在外部计算设备上运行的事件分析算法并行处理。事件分析算法可以包括执行将关于用户的特定偏好进行训练的各种处理层的深度学习算法。例如,用户可以在事件分析算法中提供反馈或指示,以教导事件分析算法关于由可穿戴设备检测到的事件的性质和优先级。在一个示例中,事件分析算法被训练为辨识特定话音数据(例如,特定人的、特定分类的等),并且在辨识时,将话音数据转录为文本。事件分析算法可以基于辨识将事件分类为不同的优先级水平:例如,火警可以具有比门铃更高的优先级。在方面中,计算设备上的事件分析算法可以经由无线连接(诸如,使用近场通信(例如,蓝牙))访问可穿戴设备的该两个或更多个麦克风。在方面中,事件分析算法可以与在可穿戴设备上运行的活动检测算法组合或与其并行工作。在一些情况下,事件分析算法和活动检测算法可以统称为事件确定算法。
图1示出了实践本公开的方面的示例系统100。如图所示,系统100包括与计算设备120通信地联接的可穿戴设备110。可穿戴设备110被示出为包括两个或更多个扬声器和两个或更多个麦克风的头戴式耳机。计算设备120被示出为与可穿戴设备110无线配对的智能电话或平板计算机。在高层级下,可穿戴设备110可以播放从计算设备120传输的音频内容。用户可以使用计算设备120上的图形用户界面(GUI)来选择音频内容和/或调整可穿戴设备110的设置。可穿戴设备110提供隔音、主动噪声消除和/或其他音频增强特征以播放从计算设备120传输的音频内容。根据本公开的方面,在确定需要用户注意的事件后,可穿戴设备110和/或计算设备120可以向用户提供关于事件及其位置属性的非侵入性空间化通知或反馈。
在方面中,可穿戴设备110包括至少两个麦克风111和112以捕获环境声音。所捕获的声音可以用于主动噪声消除和/或事件检测。例如,麦克风111和112定位在可穿戴设备110的相对侧上。由麦克风111和112捕获的音频信号可以经相关和/或三角化以确定所检测到的事件的位置属性。在方面中,可以使用定位在可穿戴设备110的不同位置处的附加麦克风来增强位置确定的准确性。
在方面中,耳机110包括能够检测由耳机110的麦克风111、112接收的声音信号中的话音信号(例如,人类话音信号)的存在的语音活动检测(VAD)电路。例如,耳机110的麦克风111、112可以接收耳机110附近的环境外部声音,包括由用户说出的话音。由麦克风111、112接收的声音信号可以具有与耳机110附近的其他声音混合的话音信号。通过使用VAD,耳机110可以从接收到的声音信号检测和提取话音信号。在方面中,VAD电路可以用于检测和提取由用户发出的话音以便促进语音呼叫、用户与另一个人之间的语音聊天或用于虚拟个人助理(VPA)(诸如,基于云的VPA)的语音命令。在其他示例中,检测或触发可以包括自VAD(仅在用户在说话时启动,而不管区域中的其他人是否在讲话)、活动运输(从运输系统捕获的声音)、头部姿势、按钮、基于计算设备的触发(例如,来自电话的暂停/解除暂停)、随输入音频水平的改变、环境中的可听改变,等等。语音活动检测电路可以运行或辅助运行本文所公开的活动检测算法。
可穿戴设备110还可以包括硬件和电路,该硬件和电路包括处理器/处理系统和存储器,该处理器/处理系统和存储器被配置为实现一个或多个声音管理能力或其他能力,包括但不限于噪声消除电路(未示出)和/或噪声掩蔽电路(未示出)、身体移动检测设备/传感器和电路(例如,一个或多个加速度计、一个或多个陀螺仪、一个或多个磁力计等)、地理定位电路和其他声音处理电路。
在方面中,可穿戴设备110使用一个或多个无线通信方法无线地连接到计算设备120,该一个或多个无线通信方法包括但不限于蓝牙、Wi-Fi、蓝牙低功耗(BLE)、其他基于RF的技术等。在方面中,可穿戴设备110包括收发器,该收发器经由一个或多个天线传输和接收数据以便与计算设备120交换音频数据和其他信息。
在方面中,可穿戴设备110包括能够从计算设备120传输和接收音频数据和其他信息的通信电路。可穿戴设备110还包括传入音频缓冲器,诸如渲染缓冲器,其缓冲传入音频信号(例如,音频分组)的至少一部分以便允许从计算设备120重传任何遗漏或丢弃的数据分组的时间。例如,当可穿戴设备110从计算设备120接收蓝牙传输时,通信电路通常在音频被实际渲染并且作为音频输出到可穿戴设备110的换能器(例如,音频扬声器)中的至少一者之前在渲染缓冲器中缓冲传入音频数据的至少一部分。这样做是为了确保即使存在导致音频分组在传输期间丢失的RF冲突,在丢失的音频分组必须由可穿戴设备110渲染以用于由可穿戴设备110的一个或多个声换能器输出之前,丢失的音频分组仍有时间由计算设备120重传。
音频输出设备110被示出为在头戴式耳机上;然而,本文所描述的技术适用于其他可穿戴设备,诸如可穿戴音频设备,包括配合在用户的耳朵或用户的其他身体部位(诸如,头部或颈部)周围、其上、其中或其附近的任何音频输出设备(包括穿戴在用户的头部或肩部上的开耳式音频设备)。可穿戴设备110可以采取任何形式,可穿戴或以其他方式,包括独立设备(包括汽车扬声器系统)、固定设备(包括便携式设备,诸如电池供电的便携式扬声器)、耳机、入耳式耳机、听筒、头戴式耳机、护目镜、头带、耳塞、臂带、运动耳机、颈带或眼镜。
在方面中,在具有或没有对应的无线连接的情况下,可穿戴设备110使用有线连接来连接到计算设备120。计算设备120可以是智能电话、平板计算机、膝上型计算机、数码相机或与可穿戴设备110连接的其他计算设备。如图所示,计算设备120可以连接到网络130(例如,互联网)并且可以通过该网络访问一个或多个服务。如图所示,这些服务可以包括一个或多个云服务140。
在方面中,计算设备120可以使用在计算设备120上执行的移动网络浏览器或本地软件应用程序或“app”通过网络130访问云140中的云服务器。在方面中,软件应用程序或“app”是在计算设备120上安装并本地运行的本地应用程序。在一个方面,云140上的可访问云服务器包括在云服务器上运行的一个或多个云应用程序。该云应用程序可以由计算设备120访问和运行。例如,该云应用程序可以生成由计算设备120上的移动网络浏览器渲染的网页。在方面中,根据本公开的方面,安装在计算设备120上的移动软件应用程序或安装在云服务器上的云应用程序可以单独或组合地用于实现用于计算设备120与可穿戴设备110之间的低延迟蓝牙通信的技术。在方面中,本地软件应用程序和云应用程序的示例包括游戏应用程序、音频AR应用程序,和/或具有音频AR能力的游戏应用程序。计算设备120可以从可穿戴设备110接收信号(例如,数据和控制)以及向可穿戴设备110发送信号。
图2A示出了示例性可穿戴设备110及其部件中的一些部件。其他部件可以是可穿戴设备110中固有的,并且未在图2A中示出。例如,可穿戴设备110可以包括容纳任选的图形界面(例如,OLED显示器)的壳体,该任选的图形界面可以向用户提供关于当前播放(“正在播放”)音乐的信息。
可穿戴设备110包括用于输出音频的一个或多个电声换能器(或扬声器)214。可穿戴设备110还包括用户输入界面217。用户输入界面217可以包括多个预设置指示符,该多个预设置指示符可以是硬件按钮。预设置指示符可向用户提供对分配给这些按钮的实体的简单的一次按压访问。所分配的实体可以与不同的数字音频源相关联,使得单个可穿戴设备110可以提供对各种不同的数字音频源的单次按压访问。
传感器111和112可以包括用于捕获环境声音的两个或更多个麦克风,并且提供用于确定事件的位置属性的音频信号。例如,传感器111和112可以提供用于确定可穿戴设备110处的声音到达差异以探知位置属性的机构。在一些情况下,传感器111和112可以捕获传输延迟,这可以用于减少后续计算中的误差。传感器111和112可以各自提供音频信号的两个或更多个信道。音频信号由间隔开并且可以具有不同方向响应的麦克风捕获。音频信号的该两个或更多个信道可以用于计算感兴趣事件的方向属性。
如图2A所示,可穿戴设备110包括声学驱动器或扬声器214,以通过音频硬件223将音频信号转换为声能。可穿戴设备110还包括网络接口219、至少一个处理器221、音频硬件223、用于为可穿戴设备110的各种部件供电的电源225,以及存储器227。在方面中,处理器221、网络接口219、音频硬件223、电源225和存储器227使用各种总线235互连,并且这些部件中的若干部件可以安装在公共母板上或根据情况以其他方式安装。
网络接口219经由一个或多个通信协议提供可穿戴设备110与其他电子计算设备之间的通信。网络接口219提供无线网络接口229和有线接口231(任选的)中的任一者或两者。无线接口229允许可穿戴设备110根据无线通信协议诸如IEEE 802.11与其他设备进行无线通信。有线接口231经由有线(例如,以太网)连接提供网络接口功能以实现可靠性和快速传送率,例如,当可穿戴设备110未被用户穿戴时使用。尽管示出,但是有线接口231是任选的。
在特定方面中,网络接口219包括用于支持Apple
Figure BDA0004168553560000131
和/或Apple/>
Figure BDA0004168553560000132
2的网络媒体处理器233。例如,如果用户将支持/>
Figure BDA0004168553560000133
或Apple/>
Figure BDA0004168553560000134
2的设备(诸如,iPhone或iPad设备)连接至网络,则用户然后可以经由Apple/>
Figure BDA0004168553560000135
或Apple/>
Figure BDA0004168553560000136
2将音乐流传输至连接到网络的音频回放设备。值得注意的是,音频回放设备可以支持经由
Figure BDA0004168553560000137
Apple/>
Figure BDA0004168553560000138
2和/或DLNA的UPnP协议的音频流,并且全部集成在一个设备内。
作为网络分组的一部分接收的所有其他数字音频可以通过USB网桥(未示出)直接从网络媒体处理器233传递至处理器221并且运行到解码器、DSP中,并最终经由电声换能器214回放(渲染)。
网络接口219还可以包括用于蓝牙应用(例如,用于与支持蓝牙的音频源诸如智能电话或平板计算机进行无线通信)的蓝牙电路237或其他支持蓝牙的扬声器组。在一些方面中,由于能量约束,蓝牙电路237可以是主网络接口219。例如,当可穿戴设备110采用任何可穿戴形式时,网络接口219可以将蓝牙电路237仅用于移动应用。例如,BLE技术可以用于可穿戴设备110中以延长电池寿命、减少封装重量并且提供高质量性能而无需其他备份或另选网络接口。
在方面中,网络接口219支持一次同时使用多个通信协议与其他设备的通信。例如,可穿戴设备110可以支持Wi-Fi/蓝牙共存并且可以支持一次使用Wi-Fi和蓝牙协议两者的同时通信。例如,可穿戴设备110可以使用蓝牙从智能电话接收音频流,并且还可以同时通过Wi-Fi将音频流重新分发到一个或多个其他设备。在方面中,网络接口219可以包括能够一次仅使用一种通信方法(例如,Wi-Fi或蓝牙)进行通信的仅一个RF链。在该上下文中,网络接口219可以通过例如根据时分多路复用(TDM)模式在Wi-Fi与蓝牙之间时间共享单个RF链来同时支持Wi-Fi和蓝牙通信。
流式数据可以从网络接口219传递至处理器221。处理器221可以执行指令(例如,以用于执行数字信号处理、解码和均衡功能以及其他功能),包括存储在存储器227中的指令。处理器221可被实现为芯片的芯片组,该芯片组包括多个独立的模拟和数字处理器。处理器221可以提供例如音频可穿戴设备110的其他部件的协调,诸如控制用户界面。
在特定方面中,存储在存储器227中的协议可以包括根据例如蓝牙核心规范版本5.2(BT5.2)的BLE。可穿戴设备110和其中的各种部件在本文中被提供以充分符合或执行协议及相关联规范的方面。例如,BT5.2包括支持并行事务的增强属性协议(EATT)。限定新的L2CAP模式以支持EATT。因此,可穿戴设备110包括足以支持BT5.2的规范和操作模式的硬件和软件部件,即使未在本公开中没有明确示出或讨论。例如,可穿戴设备110可以利用在BT5.2中指定的LE等时信道。
处理器221将经处理的数字音频信号提供到音频硬件223,该音频硬件包括用于将数字音频信号转换为模拟音频信号的一个或多个数模(D/A)转换器。音频硬件223还包括一个或多个放大器,该一个或多个放大器将经放大的模拟音频信号提供到电声换能器214以供声音输出。另外,音频硬件223可以包括用于处理模拟输入信号以提供数字音频信号以供与其他设备(例如,用于数字音频的同步输出的其他扬声器组)共享的电路。
存储器227可以包括例如闪存存储器和/或非易失性随机存取存储器(NVRAM)。在一些方面中,指令(例如,软件)存储在信息载体中。指令在由一个或多个处理设备(例如,处理器221)执行时执行一个或多个过程,诸如本文其他地方所述的那些过程。指令也可以由一个或多个存储设备存储,诸如一个或多个计算机可读介质或机器可读介质(例如,存储器227或处理器上的存储器)。指令可以包括用于执行解码(即,软件模块包括用于解码数字音频流的音频编解码器)以及数字信号处理和均衡的指令。在特定方面中,存储器227和处理器221可以在数据获取和实时处理中与反馈麦克风111和前馈麦克风112协作。
图2B示出了根据本公开的特定方面的示例性计算设备120,诸如智能电话或移动计算设备。计算设备120的一些部件可以是固有的,并且未在图2B中示出。例如,计算设备120可以包括壳体。壳体可以容纳如图所示的任选的图形界面212(例如,OLED显示器)。图形界面212向用户提供关于当前播放(“正在播放”)音乐或视频的信息。计算设备120包括用于输出音频的一个或多个电声换能器215。计算设备120还可以包括支持用户输入的用户输入界面216。
计算设备120还包括网络接口220、至少一个处理器222、音频硬件224、用于为计算设备120的各种部件供电的电源226,以及存储器228。在方面中,处理器222、图形界面212、网络接口220、音频硬件224、电源226和存储器228使用各种总线236互连,并且这些部件中的若干部件可以安装在公共母板上或根据情况以其他方式安装。在一些方面中,计算设备120的处理器222在计算能力方面比可穿戴设备110的处理器221更强大。此类差异可能是由于重量、电源和其他要求的限制。类似地,计算设备120的电源226可以具有比可穿戴设备110的电源225更大的容量并且更重。
网络接口220经由一个或多个通信协议提供计算设备120与可穿戴设备110以及其他音频源与其他无线扬声器组(包括一个或多个联网无线扬声器组与其他音频回放设备)之间的通信。网络接口220可以提供无线接口230和有线接口232(任选的)中的任一者或两者。无线接口230允许计算设备120根据无线通信协议诸如IEEE 802.11与其他设备进行无线通信。有线接口232经由有线(例如,以太网)连接提供网络接口功能。
在特定方面中,网络接口220还可以包括网络媒体处理器234和蓝牙电路238,类似于图2A中的可穿戴设备110中的网络媒体处理器233和蓝牙电路237。此外,在方面中,网络接口220支持一次同时使用多个通信协议与其他设备的通信,如关于图2A中的网络接口219所描述的。
作为网络分组的一部分接收的所有其他数字音频通过USB网桥236直接从网络媒体处理器234发送到处理器222并且运行到解码器、DSP中,并最终经由电声换能器215回放(渲染)。
计算设备120还可以包括用于捕获图像或视频数据的图像或视频获取单元280。例如,图像或视频获取单元280可以连接到一个或多个相机282并且能够捕获静态或运动图像。图像或视频获取单元280可以根据用户选择以各种分辨率或帧速率进行操作。例如,根据该一个或多个相机282的硬件能力和用户输入,图像或视频获取单元280可以利用该一个或多个相机282以每秒30帧捕获4K视频(例如,3840×2160像素的分辨率)、以每秒60帧捕获FHD视频(例如,1920×1080像素的分辨率),或者以较低分辨率捕获慢动作视频。该一个或多个相机282可以包括两个或更多个单独的相机单元,这些相机单元具有不同特性(诸如,产生不同视场的焦距)的相应镜头。图像或视频获取单元280可以在连续记录期间在相机282的该两个或更多个单独的相机单元之间切换。
所捕获的音频或音频记录(诸如,在可穿戴设备110处捕获的语音记录)可以从网络接口220传递至处理器222。处理器222执行无线扬声器组内的指令(例如,以用于执行数字信号处理、解码和均衡功能以及其他功能),包括存储在存储器228中的指令。处理器222可被实现为芯片的芯片组,该芯片组包括多个独立的模拟和数字处理器。处理器222可以提供例如音频计算设备120的其他部件的协调,诸如控制用户界面和应用程序。类似于图2A中描述的处理器221的相应操作,处理器222将经处理的数字音频信号提供到音频硬件224。
存储器228可以包括例如闪存存储器和/或非易失性随机存取存储器(NVRAM)。在方面中,指令(例如,软件)存储在信息载体中。指令在由一个或多个处理设备(例如,处理器222)执行时执行一个或多个过程,诸如本文所述的那些过程。指令也可以由一个或多个存储设备存储,诸如一个或多个计算机可读介质或机器可读介质(例如,存储器228或处理器222上的存储器)。指令可以包括用于执行解码(即,软件模块包括用于解码数字音频流的音频编解码器)以及数字信号处理和均衡的指令。
具有定位反馈的示例听力增强和可穿戴系统
本公开的方面提供了用于当用户正穿戴可穿戴设备时向该用户提供事件的反馈的技术,包括实现这些技术的设备和系统。例如,该可穿戴设备可以向该用户提供高质量的噪声消除音频回放,从而降低该用户的情境感知。反馈可以通过空间化音频提示在对经噪声消除的回放体验的侵入最小的情况下向用户通知值得注意的事件。这些技术包括使用该可穿戴设备上的两个或更多个麦克风来测量环境声音。在一些情况下,至少三个麦克风被定位成测量用户周围的环境声音。基于所测量的环境声音来确定事件,并且确定事件的位置属性。可以使用深度学习算法来识别事件的性质和/或分类,并且排除用户偏向于忽略的事件。在确定需要用户注意的事件后,向用户提供所确定的事件和位置属性的反馈,该反馈指示事件的性质和位置。
在方面中,可穿戴设备可以经由其上的两个或更多个扬声器来播放消除所测量的环境声音的音频内容。例如,该两个或更多个扬声器可以播放具有与环境声音相同的振幅并且具有与环境声音反向的相位的音频内容。因此,由噪声消除的音频内容引起的干扰消除了环境声音。在方面中,基于事件和位置属性来向用户提供反馈包括除了噪声消除的音频内容之外还播放空间化音频提示。因此,用户可以在避开环境声音的同时保持情境感知。
作为示例,基于所测量的环境声音来确定事件可以包括测量事件的声音水平的量值以及使用与事件相关联的音频信号来确定事件相对于可穿戴设备的位置。可以基于从音频信号处理的方向和距离来确定事件的位置。事件的位置属性可以包括方向或距离中的至少一者。例如,用户可能不希望关于用户自己的话音而被通知。与特定阈值内的距离相关的事件可以被确定为用户自己的话音,并且因此被忽略。类似地,尽管用户可能沉浸在噪声消除的体验中,但是用户仍可能感知到在视觉上可识别的事件。例如,如果用户的同事正在用户前方讲话,则用户不需要听到话音来感知到该话音,因为同事嘴唇的移动可以向用户提供足够的视觉通知。因此,位置属性是确定可能或可能不需要用户注意的事件的重要方面。
图3示出了根据本公开的特定方面的用于向用户提供所确定的事件和位置属性的反馈的示例操作300。操作300在302处通过使用两个或更多个麦克风来测量环境声音而开始。在一些情况下,至少三个麦克风被定位成测量用户周围的环境声音。例如,框302可由如图1所示的可穿戴设备110以及麦克风111和112执行。在图4中示出了附加示例,其中使用麦克风413、415和425来测量环境声音。所测量的环境声音可以用于生成噪声消除内容和针对需要用户注意的事件进行监视,如下面进一步描述的。
在304处,事件确定算法可以基于所测量的环境声音来确定事件。例如,事件确定算法可以测量事件的声音水平的量值,并且使用与事件相关联的音频信号来确定事件相对于可穿戴设备的位置。事件确定算法可以确定事件的声音水平的量值已超过对应于事件相对于可穿戴设备的位置的阈值(例如,不同的相对位置可以具有不同的阈值)。例如,阈值可以基于事件相对于可穿戴设备的位置而变化。阈值可以随着事件的位置变得更接近用户而增大,使得可以排除由用户产生的声音。
在一些情况下,事件确定算法可以监视并计算背景噪声的平均量值(即,分贝水平)并且将超过平均分贝水平的传入声音视为事件候选。在一些情况下,事件确定算法可以在确定事件候选时使用针对分贝水平的用户输入阈值。在一些情况下,事件确定算法可以使用环境声音的历史或模式作为识别异常响亮的声音的参考。可以实现两个或更多个示例策略的组合。
在306处,事件确定算法确定事件的位置属性。事件的位置属性可以包括相对于用户/可穿戴设备的方向和事件与用户/可穿戴设备之间的距离中的至少一者。在一些情况下,可以基于从音频信号处理的方向和距离来确定事件的位置。例如,该两个或更多个麦克风允许事件确定算法将具有类似特性的声音相关和/或三角化以用于确定位置。例如,同一声音将由于不同行进距离而在不同时间到达该两个或更多个麦克风中的每一者,从而允许确定到该两个或更多个麦克风的相对位置。因此,可以从音频信号处理方向和距离以确定事件的位置。如图4所示,同一声音信号的不同延迟量(例如,分别针对413和415一对以及415和425一对绘制在图410和420中的测量)允许事件确定算法执行声音信号的远场定位,如子图430所示。
在一些情况下,事件确定算法可以通过基于事件相对于可穿戴设备的位置排除事件事情来基于环境声音确定事件。例如,事件确定算法可以排除在到可穿戴设备的特定距离内的事情(例如,对由用户引起的事情进行分类,诸如用户自己的话音等)、在可穿戴设备的视场内或在可穿戴设备的方向上(诸如,在可穿戴设备的前方)的事情(例如,对用户在视觉上可注意到的事情进行分类,诸如来自在用户前方的扬声器的计算机通知声音、用户面前的某人讲话等),或者可能太远而不需要用户注意的事情(例如,住宅周边外部的交通噪声的事情等)。一些示例在图5中进一步示出并在下面进行讨论。
在一些情况下,事件确定算法可以通过基于与事件相关联的音频信号中的复现模式排除事件事情来基于环境声音确定事件。例如,事件确定算法可以分析记录环境声音的历史以识别已被用户忽略的环境声音的模式,并且确定所检测到的事件是否符合该模式且将被忽略。
在一些情况下,事件确定算法可以通过基于与事件相关联的音频信号的属性排除事件事情来基于环境声音确定事件。例如,音频信号的属性可以指示音频信号与之相关联的地方、内容或人物。事件确定算法可以将内部的火警与外部的汽笛区分开,或者将来自熟人的话音(例如,基于先前的记录事件)与来自陌生人的话音区分开。
在一些情况下,事件确定算法可以基于使以下各项相关来确定事件:事件相对于可穿戴设备的位置、与事件相关联的音频信号中的复现模式,以及与事件相关联的音频信号的属性。例如,事件确定算法可以使用深度学习来辨识事件的音频信号的性质或含义。深度学习或更一般情境下的机器学习可以使用具有由人工智能执行的表示/特征学习的人工神经网络。如下面关于图6至图7进一步讨论的,事件确定算法可以采用人工智能来对以下各项的数据执行深度学习:事件相对于可穿戴设备的位置、与事件相关联的音频信号中的复现模式,以及与事件相关联的音频信号的属性。深度学习可以准确地确定哪个事件值得用户注意并且忽视正误识事件。
在308处,向用户提供所确定的事件和位置属性的反馈。例如,反馈可以包括由可穿戴设备中的该两个或更多个扬声器播放空间化声音、使用可穿戴设备提供指示方向的触觉通知、在连接到可穿戴设备的一个或多个设备上显示通知,或其组合。可以使用可穿戴设备的两个或更多个扬声器(例如,能够产生环绕声的扬声器)来产生空间化声音。空间化声音可以表示所确定的事件相对于用户的位置(例如,位置属性)。可穿戴设备可以包括用于提供定向输入(例如,左/右、上/下等)的两个或更多个触觉反馈机构。图5示出了以记录事情的视觉呈现500的形式显示通知的一个示例。
如图5所示,视觉表示500在x轴上通过从左到右(L-R)延迟(即,指示到可穿戴设备的相对距离的时间延迟)并且在y轴上通过从前到后(F-B)延迟来绘制所检测到的事情。圆形范围540指示与远场声音源一致的延迟对的范围。视觉表示500包括用户的视场520和相关的正向方向530。在用户的视场520内检测到的事情可以被假定为可忽略的。与可穿戴设备对准并且(例如,随着用户移动)经受改变的正向方向530可以用于更新视场520中的事情的覆盖范围。例如,正向方向530可以当可穿戴设备被初始化时被限定,并且可以使用来自一个或多个运动传感器诸如加速计、陀螺仪或惯性测量单元(IMU)的输入来更新。
在图5中示出了多个示例事情510、512和514。事情510表示超过阈值声音水平并且落在视场520内的事件。因此,事情510不被报告给用户。事情512表示超过阈值声音水平并且落在视场520外的事件。此外,事情512与用户的非专注状态相关联,并且因此不被报告给用户。事情514表示超过阈值声音水平、落在视场520外并且与用户的专注状态相关联的事件。事情514连同相关联的位置属性一起被报告给用户,其可以被呈现为空间化音频提示以及由视觉表示500呈现。
例如,事件确定算法可以基于由可穿戴设备测量的运动信号的模式来确定用户处于专注状态。运动信号的模式可以由设置在可穿戴设备上的一个或多个IMU测量。当用户的情境感知在专注状态下降低时,诸如当用户仍然坐着阅读或观看时,对所检测到的事情的反馈在此类专注状态下更为宝贵。在图8中示出了运动信号的示例测量800。
简要地转向图8,x轴802表示时间,并且y轴804表示通常由陀螺仪或运动传感器测量的能量。如图所示,低能量水平模式816表示用户的专注状态,而高能量水平模式818表示移动状态。当用户不处于专注状态时忽略事情512,因为声音信号可能包括由于用户自己的移动而产生的噪声。在一些情况下,确定用户处于专注状态可以包括处理运动信号的模式。运动信号的模式不需要指示用户正坐着或站着不动,而是指示重复模式,诸如前后踱步或摇摆。
本公开的一个重要方面涉及使用深度学习基于各种数据层(包括音频属性、位置属性和用户状态)来确定事件(诸如事情514)。在高层级下,深度学习方面通过分析音频信号的各种属性(例如,区分声音信号的源和性质)基于多个类别或分类来检测事件。其次,深度学习方面可以决定每个所检测到的事件(例如,语音、警报、敲击等)的类别或种类以及相关联的优先级水平。深度学习可以是监督式的(例如,持续地接收用户反馈)、半监督式的(例如,偶尔接收用户反馈)和非监督式的(例如,不接收用户反馈)。
图6A示出了根据本公开的特定方面的用于确定需要用户注意的事件的示例过程。如图所示,两个或更多个特征提取模块可以接收一个或多个信道中的音频时间序列。然后,特征被提取并提供给每类能量预测网络(例如,机器学习网络或神经网络)以及声音定位处理网络以用于确定所提取特征的位置属性。在一些情况下,特征提取是确定性处理。在一些情况下,特征提取产生“梅尔语谱图”图像。在多信道中的音频时间序列中,特征提取过程之后可以是声音定位网络中的处理,该声音定位网络处理环境声音的定向输出。
然后,这两个网络可以通过基于事件阈值和决策逻辑的模块应用事件阈值和决策逻辑来确定可以向用户提供什么反馈,然后该模块输出每个声音类别的决策。在一些情况下,图6A的示例使用对每个声音类别的rms估计进行阈值化(例如,不限于0至1)来确定对应的检测序列。在一些情况下,检测阈值化过程可以对事件检测应用每类别或定制的阈值。图6A中的输出信号(“N类决策”)可以限定将利用反馈来通知用户。
在图6B中示出了用于确定需要用户注意的事件的深度学习过程600的第二示例。深度学习过程600可以被实现为图6A中示出的示例的替代方案(例如,与其分开),或者可以与图6A中示出的示例一起实现,类似于下面图6C中示出的另一示例。如图所示,深度学习过程600在610处通过接收输入音频而开始。尽管被示出为单信道音频流,但是输入音频通常包括至少两个记录信道(例如,以用于定位分析)。可以并行地分析输入音频的该两个或更多个信道。在620处,提取输入音频中的特征。可以基于量值、频率、模式或其组合来识别特征。
在630处,将滤波器应用于所提取的特征并且进一步对与输入音频的特征相关联的事件进行分类。例如,特征提取过程可以包括对输入音频信号的滤波和变换(例如,转换为频域“梅尔语谱图”)。在一些情况下,实现630处的过程的“每类”能量预测网络可以包括基于所提取的特征来预测每类rms能量的神经网络。在一些情况下,图6B中的特征提取过程可以与在图6A的“特征提取”中执行的过程不同。
在640处,执行对基于输入音频的两个或更多个信道的定位分析,从而产生两个辨识输出650和654。输出650包括具有多标签分类的声音事件检测,其可以指示所检测到的事件的性质,诸如话音641、与汽车喇叭相关联的声音642、犬吠643或汽笛(未示出)。沿着时间线T记录所检测到的声音,其中每一帧具有时段t。输出654提供到达方向估计,使得可以通过确定每个事件的原点的X-Y-Z坐标来确定所检测到的事件(诸如,话音641、与汽车喇叭相关联的声音642、犬吠643)的方向。
在一些情况下,引入650的“sigmoid”层可以实现基于概率的检测方法,其中我们将概率阈值化在0与1之间(这是sigmoid块产生的内容)以确定650中每个类别的检测序列。在一些情况下,可以使用非循环网络来执行630处的过程。可以使用循环网络来执行640处的过程。
图6C示出了使用神经网络来确定是否可以和可以如何向用户提供反馈的另一示例。如图所示,图6C示出了分开的阈值化和决策步骤。
图7示出了示例深度学习模型的输出。输出是每类能量时间序列预测。可以通过将阈值应用于预测来产生检测决策。如图7所示,曲线图705示出了使用声音能量(y轴)来沿着时间(x轴中的帧)确定测量和预测的事件。例如,示出了三个示例能量分布710、712和714。分布710可以包括语音和其他声音信号,其可以对应于图725的右侧的音频信号723。分布712表示存在的语音信号的能量的量。如分布714所示,事件确定算法可以被训练成预测仅语音活动的预期能量变化并且忽略非话音事件的能量。例如,在图725中,事件731或721表示记录信号723的仅语音能量部分。信号722示出了在敲击声音732期间的高能量,而在该时间期间的语音能量部分保持较小。
在一些方面中,本文以各种方式描述的技术可以用于确定可穿戴设备和/或可穿戴设备的用户的上下文信息。例如,这些技术可以用于帮助确定用户环境(例如,嘈杂位置、安静位置、室内、室外、在飞机上、在车内等)和/或活动(例如,通勤、步行、跑步、坐着、开车、乘飞行等)的方面。在一些此类方面中,从可穿戴设备接收的音频数据可以在计算设备处被处理以确定此类上下文信息并且向用户提供新的或增强的体验。例如,这可以实现播放列表或音频内容定制、噪声消除调整和/或其他设置调整(例如,音频均衡器设置、音量设置、通知设置等),仅举几个示例。
由于可穿戴设备(例如,耳机或耳塞)通常具有有限的资源(例如,存储器和/或处理资源),因此使用本文所描述的技术将数据的处理从可穿戴设备的传感器卸载到计算设备同时使系统同步计算设备处的音频数据提供了多种应用。在一些方面中,本文所公开的技术使得计算设备能够自动识别用于经同步的音频捕获操作的优化或最有利配置或设置,如下所述。
基于不同阈值的定制配置的示例反馈
本公开的方面还提供了用于向用户提供由定制阈值限定的事件的反馈的技术,包括实现这些技术的设备和系统,该定制阈值在对应于不同情境标准的不同配置事件中变化。例如,可穿戴设备可以在不同情境下使用不同阈值来确定事件。不同阈值可以由用户配置、默认地设置、由服务更新或基于新数据(例如,机器学习)来更新。在方面中,阈值是对应于被表征为配置事件的情境的可配置分贝或音量水平。每个配置事件可以由一个或多个参数限定,诸如声音类别(例如,话音、旋律、警报、吠叫等)、位置属性(例如,距可穿戴设备的距离和方向,如前所述)、时间、日期、可穿戴设备的位置(例如,家、办公室等)和其他参数。例如,用户可以针对同一声音类别在家中的不同房间中设置不同阈值,使得经衰减的特定声音(例如,门铃)仍然可以引起给用户的反馈。这些参数通常称为情境标准以包括各种类型的数据。
在方面中,两个或更多个不同情境标准中的每一者可以包括以下各项中的至少一者的定制配置:与所确定的事件相关联的阈值、事件的位置属性或给用户的反馈。在一些情况下,情境标准还包括基于使用可穿戴设备的两个或更多个麦克风测量的环境声音来确定的相对于可穿戴设备的位置属性。例如,能够由用户配置的阈值可以包括对应于一个特定情境标准的最小或最大距离。阈值还可以包括对应于一个特定情境标准的方向。情境标准可以对应于可穿戴设备的特定物理位置。例如,针对家中位置的声音距离和方向的情境标准将不同于针对办公室位置的声音距离和方向的情境标准。用户可以配置情境标准,使得当在家时,在第一方向上来自第一距离的特定声音超过第一阈值可以产生提供给用户的反馈,而在办公室中,在第二方向上来自第二距离的特定声音超过第二阈值可以产生另一反馈。
图9示出了根据本公开的特定方面的用于向用户提供所确定的事件的反馈的示例操作900。操作900可以至少部分地由可穿戴设备(诸如图1的可穿戴设备110)执行。操作900与图3的操作300的不同之处在于,操作900可以通过应用特定于情境的阈值来确定事件,该特定于情境的阈值在由不同参数或情境标准表征的不同情境中变化。例如,除了使用如在操作300中所讨论的位置属性之外,操作900还考虑定制的灵敏度或阈值、声音特性(例如,声音的类型或类别)以及定制的反馈,如下所述。
操作900在902处通过使用两个或更多个麦克风来测量环境声音而开始。这类似于操作300。该两个或更多个麦克风允许检测相对于可穿戴设备(诸如,如图1所示的可穿戴设备110以及麦克风111和112)的环境声音位置。例如,该多个麦克风可以通过估计不同麦克风对之间的时间延迟来实现对到达方向的估计。可以从声音强度、回响和一些其他量间接确定距离。可以类似地应用其他位置确定技术。在图4中示出了附加示例,其中使用麦克风415和425来测量环境声音。所测量的环境声音可以用于生成噪声消除内容和针对需要用户注意的事件进行监视。
在904处,可以基于所测量的环境声音超过阈值来确定事件。阈值可针对对应于两个或更多个不同情境标准的两个或更多个不同配置事件而变化。例如,阈值可以由用户定制,或者根据不同的声音特性而默认地变化。因此,可穿戴设备可以在不同情境中不同地表现,诸如在会议环境中、在音频回放情景中或在消除所有周围噪声的集中模式中的呼叫期间。
在906处,基于所确定的事件,向用户提供对应的反馈。例如,反馈可以包括由可穿戴设备中的该两个或更多个扬声器播放空间化声音、使用可穿戴设备提供指示方向的触觉通知、在连接到可穿戴设备的一个或多个设备上显示通知,或其组合,如上所述。
在方面中,该两个或更多个不同情境标准中的每一者包括以下各项中的至少一者的定制配置:与所确定的事件相关联的阈值、事件相对于可穿戴设备的位置属性,或者基于所确定的事件给用户的反馈。定制配置可以由用户输入。定制配置可以包括默认出厂配置。例如,图10和图11示出了根据本公开的特定方面的用于调整情境标准的定制配置的示例界面。
如图10所示,用户可以通过选择通知类型中的一者或多者(诸如,音频警示、桌面通知,或两者)来管理通知。除了通知类型之外,图10中示出的定制配置还可以包括针对不同声音类别(诸如,如图所示的话音、警报/定时器和响亮事件)的事件灵敏度限定。事件灵敏度可以指示声波的最小量值(例如,谷)或可检测频率的范围。在一些情况下,灵敏度对于用户而言可以是描述性的且直观的,诸如通过提供“同一房间中的话音”和“隔壁房间中的话音”的反馈。该算法的一部分可以将所测量的声音水平与这些描述相匹配,这取决于特定情景。所选择的事件灵敏度可以与限定事件阈值的分贝水平相关联。该阈值指示为了触发给用户的反馈而必须被超过的最小声音水平。换句话讲,可穿戴设备或与可穿戴设备连接的处理设备可以首先识别环境声音的适当声音类别,并且监视此类环境声音何时将超过所限定的阈值。
在一些情况下,声音类别可以包括话音、背景声音(例如,图10中示出的响亮事件)或音乐序列(即,具有可辨识模式的声音的变化)中的至少一者。在一些示例中,背景声音通常还可以包括警报、脚步噪声、交通噪声或声音模式。在一些情况下,图10可以表示图形用户界面(GUI)。GUI可以在可穿戴设备上、在连接到可穿戴设备的计算机设备上,或者在这两者上。计算机设备可以是与可穿戴设备通信的任何计算设备,诸如图1的计算设备120。
尽管图10示出针对示例声音类别的事件灵敏度配置包括离散任选水平:关、低、中和高(或者对于用户而言容易理解的对应描述),但是可以提供连续灵敏度水平配置,诸如呈滑动条的形式。在一些情况下,可以在配置中加载复杂的阈值分布(诸如频率范围中的量值分布)。此外,在一些情况下,可穿戴设备可以(例如,通过机器学习)基于用户对环境声音的反应来训练、获取或辨识阈值配置。例如,除了语音响应之外,还可以使用各种运动传感器来测量用户的反应。
如图11所示,声音类别选择、检测灵敏度以及反馈或通知模式可以由用户配置。图11可以被认为是实现图10的各个方面的示例图形界面。
在方面中,提供给用户的反馈还包括向用户播放环境声音的记录副本。例如,在确定满足特定情境标准的事件(诸如,工作环境中来自同事的话音)后,环境声音(即,话音)被记录并且在可穿戴设备中被播放给用户,该可穿戴设备可能起初(即,在处理环境声音和辨识环境声音满足话音情境标准之前)已经对话音进行了噪声消除。环境声音的记录包括至少两个信道(例如,双耳)以保留环境声音的空间特性以提供如本文各个方面中所讨论的位置属性。播放记录声音副本可以称为以下描述的一个或多个操作(例如,自动通透、事件重现等)。因此,即使可穿戴设备可以起初完全消除环境噪声,但是重要事件或声音信息也被保存且可供用户使用。
在方面中,通知或反馈可以基于1:空间化音调或提示、2:自动通透(即,自动将耳机改变至通透的噪声消除状态),和3:事件重现(我们也将其称为“直通”)。在一些情况下,回放记录事件相对于用户在真实生活中将听到的事件可能具有一些延迟,因为处理器可能需要时间来作出检测决策或处理/增强声音事件。在一些情况下,当噪声消除状态未改变时,可能发生内置“回退”。
例如,自动通透可以将可穿戴设备置于一种模式,在该模式中,设备以尝试最佳地模拟其原本状态的方式实时地直通外部世界的音频。事件重现可以记录声音事件并且然后在未来的某一时间播放该声音事件,诸如响应于用户提供其想要听到该事件的输入(例如,摇头、按下按钮等)。
在另一示例中,自动通透可以例如在用户周围的一般声音超过特定分贝水平的情况下触发,诸如以允许用户弄清楚区域中发生了什么事。然而,事件重现可能例如在基于用户的小隔间的开口预定义的窗口中检测到话音的情况下触发,其中话音被记录并且然后被回放给用户(这然后还可以使得可穿戴物进入自动通透模式以允许用户参与对话)。
在方面中,自我语音(例如,使用已知的语音活动检测(VAD)技术检测到的)可以用于在该应用的算法(使用自动通透)使得耳机进入通透状态之后将可穿戴物保持处于通透状态。激活自我语音的任选特征可以默认地设置或者可以由用户定制。
在方面中,可以任选地使用定时器(其可被设置为默认时间和/或可以由用户定制)来确定何时从自动通透模式恢复(例如,返回到在自动通透被触发之前设置的噪声消除水平)。另选地,从自动通透模式恢复可以另一方式发生,诸如响应于用户输入(例如,按钮按压、头部转动)。
在方面中,当用户可以清楚地听到话音而不管可穿戴设备的存在时(例如,基于由反馈麦克风检测到的声音水平),可穿戴设备可以自动地压制音频并将状态改变至通透,而无需使用户在可穿戴设备上进一步操作或移除可穿戴设备。换句话讲,当检测到外部会话时,可穿戴设备自动进入通透模式。
在一些情况下,可穿戴设备可以起初使用内部麦克风(例如,靠近可穿戴设备的扬声器的反馈麦克风)来确定所检测到的事件是否可被用户听到,例如,在可穿戴设备未完全消除环境声音的情况下。如果环境声音确实可被用户听到,则可穿戴设备可以不立即回放记录事件并且可以向用户提供记录的可用性的通知。在一些情况下,可穿戴设备可以基于由内部麦克风采集的数据来放大或衰减环境声音的记录副本。例如,可穿戴设备可以将回放的音量调整为基本上类似于现有音频输出,使得用户可以舒适地收听记录。在一些情况下,对环境声音的记录副本的放大或衰减可以应用于环境声音的某些特定带宽或内容。例如,环境声音的背景噪声可以被衰减,而话音可以被放大,或反之亦然。也可以使用其他数字处理来提取用户关注的数据。
在一些情况下,可以由可穿戴设备的移动触发放大或衰减环境声音的记录副本。例如,对可穿戴设备朝向声音源转动或移动的检测或测量可以(响应于该移动而立即或以预先配置的延迟)触发记录副本的重现,以及用于修改记录副本的动作,包括放大或衰减环境声音的记录副本的至少一部分。移动数据可以与从用户收集的反应的其他数据组合,以用于分析响应模式(或运动模式,或移动模式),如下所述。
在一些情况下,内部麦克风可以用于提供对记录回放的反馈控制,使得放大或衰减可以符合特定的用户偏好或简档。例如,如果当环境声音包括不同声音类别的声音的混合(诸如,背景歌曲上的话音和火警)时,内部麦克风可以确定用户已听到火警(即,可穿戴设备尚未完全消除警报声音)并且记录环境声音的回放不需要包括火警分量。类似地,话音分量可能仅由可穿戴设备的麦克风拾取,并且内部麦克风检测到用户尚未能够感知到其他声音上的话音分量,使得可穿戴设备可以比背景歌曲更大的比例放大话音分量。
在一些情况下,记录环境噪声的回放可能被延迟、推迟或偏移到另一时间。这可以称为回退操作。当记录环境声音包括复杂信号时需要更多的处理时间时,或者当用户定制或提供特定规则使得特定声音类别或特定位置属性的声音可以触发此类回退操作时,可以实现回退操作。
在一些情况下,回退操作以及其他声音重现操作(例如,包括放大和衰减)可以与用户的运动模式相关。例如,如上所述,可以基于用户的输入来识别一般配置规则。输入可以是由可穿戴设备中的一个或多个运动传感器(诸如,加速计、惯性测量单元(IMU)、振动运动传感器,或其他运动传感器)记录的运动响应。移动模式(诸如,重复的头部转动响应、步行响应或其他移动响应)可以与声音事件以及回退或重现操作相关。因此,当检测到声音事件和运动响应两者时,可穿戴设备可以自动执行回退或重现操作而无需来自用户的进一步输入。
在方面中,可穿戴设备可以使环境声音与环境声音的位置属性相关达一时间段,即,跟踪环境声音的运动。所跟踪的运动可以用于生成映射环境声音在一时间段内在不同位置处的变化的显著性图。可穿戴设备还可以测量其自身在相同时间段内的移动记录。基于显著性图和可穿戴设备的移动记录,可以基于相关关系来确定用户的响应。例如,用户的响应可能以环境声音的移动为条件,诸如接近的话音可以触发用户朝向声音方向倾斜,并且然后可以执行回退或重现操作。
在方面中,考虑到功率消耗或处理能力,可穿戴设备可以要求其他连接的设备共享数据处理工作负荷。例如,可以实现多级处理架构以节省可穿戴设备处的带宽或处理能力。在一个示例中,可穿戴设备可以将所测量的环境声音(部分地或完全地)传输到第二设备(诸如,图1的计算设备120)以用于部分的或完全的计算或处理。在一些情况下,第二设备或附加设备可以具有比可穿戴设备更大的处理能力,以便减少总处理时间。在处理之后,可穿戴设备可以接收所确定的事件和对应的反馈以提供给用户。
在一些方面中,本文以各种方式描述的技术可以用于众多音频/视频应用程序。另外,本文所描述的技术可以实现用于音频或视频消息的无线捕获的音频而不中断用户的音乐或音频回放。因此,本文所描述的技术实现了使用无线配置来产生用于视频的沉浸式和/或无噪声音频的能力。此外,如基于本公开可以理解的,所描述的技术实现了仅先前可使用有线配置实现的方案,因此所描述的技术使用户免于受到被一根或多根导线系链的不期望且不舒适的体验。
应当说明的是,上文出于说明的目的呈现本公开的方面的描述,但是本公开的方面并不旨在限于所公开的方面中的任何一者。在不脱离所描述的方面的范围和实质的情况下,许多修改和变化对于本领域普通技术人员将是显而易见的。
在前述内容中,参考了本公开中呈现的各方面。然而,本公开的范围不限于具体描述的方面。本公开的方面可以采取完全硬件化方面、完全软件化方面(包括固件、常驻软件、微代码等)或组合软件和硬件方面的方面的形式,软件和硬件方面在本文中可以统称为“部件”、“电路”、“模块”或“系统”。此外,本公开的各方面能够采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,该一个或多个计算机可读介质具有体现在其上的计算机可读程序代码。
能够利用一个或多个计算机可读介质的任何组合。计算机可读介质能够是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质能够是,例如但不限于,电子、磁性、光学、电磁、红外或半导体系统、装置或设备,或前述的任何合适的组合。计算机可读存储介质的更具体的示例包括:具有一条或多条导线的电连接件、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁存储设备或前述的任何合适组合。在当前上下文中,计算机可读存储介质能够是可包含或存储程序的任何有形介质。
附图中的流程图和框图示出了根据各个方面的系统、方法和计算机程序产品的可能具体实施的架构、功能和操作。就这一点而言,流程图或框图中的每个框能够表示模块、代码的部分,其包括用于实现一个或多个指定逻辑功能的一个或多个可执行指令。在一些另选具体实施中,框中所述的功能能够不按照附图中所述的顺序发生。例如,取决于所涉及的功能,连续示出的两个框实际上能够基本上同时执行,或者框有时能够以相反的顺序执行。框图和/或流程图图示中的每个框以及框图和/或流程图图示中的框的组合可由执行指定功能或动作的基于专用硬件的系统或专用硬件和计算机指令的组合来实现。

Claims (51)

1.一种用于向可穿戴设备的用户提供反馈的方法,包括:
使用所述可穿戴设备上的两个或更多个麦克风来测量环境声音;
基于所测量的环境声音来确定事件;
确定所述事件相对于所述可穿戴设备的位置属性;以及
基于所述事件和所述位置属性来向所述用户提供反馈。
2.根据权利要求1所述的方法,其中基于所述事件和所述位置属性来向所述用户提供反馈包括除了消除所述环境声音的音频内容之外还播放空间化音频提示。
3.根据权利要求1所述的方法,其中基于所测量的环境声音来确定所述事件包括:
测量所述事件的声音水平的量值;以及
使用与所述事件相关联的音频信号来确定所述事件相对于所述可穿戴设备的位置,其中基于从所述音频信号处理的方向和距离来确定所述事件的所述位置,并且其中所述事件的所述位置属性包括所述方向或所述距离中的至少一者。
4.根据权利要求3所述的方法,其中基于所述环境声音来确定所述事件还包括基于以下各项中的至少一者来排除事件事情:
所述事件相对于所述可穿戴设备的所述位置;
与所述事件相关联的所述音频信号中的复现模式;或者
与所述事件相关联的所述音频信号的属性。
5.根据权利要求3所述的方法,其中基于所测量的环境声音来确定所述事件包括:
确定所述事件的所述声音水平的所述量值超过对应于所述事件相对于所述可穿戴设备的所述位置的阈值。
6.根据权利要求5所述的方法,其中所述阈值基于所述事件相对于所述可穿戴设备的所述位置而变化,并且所述阈值随着所述事件的所述位置变得更接近所述用户而增大。
7.根据权利要求4所述的方法,其中基于所述环境声音来确定所述事件至少部分地基于使以下各项相关:i)所述事件相对于所述可穿戴设备的所述位置,ii)与所述事件相关联的所述音频信号中的所述复现模式,以及iii)与所述事件相关联的所述音频信号的所述属性。
8.根据权利要求7所述的方法,其中确定所述事件至少部分地基于由人工智能使用以下各项的数据来执行的深度学习分析:所述事件相对于所述可穿戴设备的所述位置,与所述事件相关联的所述音频信号中的所述复现模式,以及与所述事件相关联的所述音频信号的所述属性。
9.根据权利要求1所述的方法,其中基于所述事件来向所述用户提供反馈包括以下各项中的至少一者:
使用所述可穿戴设备的至少一个扬声器来播放空间化声音;
使用所述可穿戴设备来提供指示方向的触觉通知;或者
在连接到所述可穿戴设备的一个或多个设备上显示通知。
10.根据权利要求9所述的方法,其中所述空间化声音表示所确定的事件相对于所述用户的位置,其中所表示的位置基于至少所述位置属性。
11.根据权利要求1所述的方法,还包括基于由所述可穿戴设备测量的运动信号的模式来确定所述用户处于专注状态,其中基于所述事件和所述位置属性来向所述用户提供反馈基于所确定的专注状态。
12.根据权利要求11所述的方法,其中确定所述用户处于所述专注状态包括处理由设置在所述可穿戴设备上的一个或多个惯性测量单元(IMU)测量的运动信号的所述模式。
13.根据权利要求1所述的方法,其中所述可穿戴设备上的所述两个或更多个麦克风包括被定位成测量所述用户周围的所述环境声音的至少三个麦克风。
14.根据权利要求1所述的方法,其中所述可穿戴设备是穿戴在所述用户的头部或颈部中的至少一者上的音频设备。
15.根据权利要求1所述的方法,其中所述可穿戴设备包括以下各项中的至少一者:包耳式耳机、贴耳式耳机、入耳式耳机、耳塞、真无线耳塞、眼镜、头带、颈带、耳挂、耳夹、头戴式音频设备或颈戴式音频设备。
16.根据权利要求1所述的方法,其中所述可穿戴设备是噪声消除音频设备。
17.一种系统,包括:
可穿戴设备,所述可穿戴设备具有被配置为测量环境声音的两个或更多个麦克风;和
与所述可穿戴设备连接的计算设备,所述计算设备被配置为:
基于所测量的环境声音来确定事件,
确定所述事件相对于所述可穿戴设备的位置属性;以及
使得基于所述事件和所述位置属性来向用户提供反馈。
18.根据权利要求17所述的系统,其中所述可穿戴设备还包括两个或更多个扬声器,所述两个或更多个扬声器被配置为:
播放消除所测量的环境声音的音频内容;以及
通过除了所述音频内容之外还播放空间化音频提示来向所述用户警示所确定的事件。
19.根据权利要求17所述的系统,其中所述可穿戴设备还包括用于响应于所述计算设备基于所述事件来向所述用户提供反馈而提供触觉反馈的致动器。
20.根据权利要求17所述的系统,其中所述计算被进一步配置为基于以下各项中的至少一者来排除事件事情:
所述事件相对于所述可穿戴设备的所述位置;
与所述事件相关联的音频信号中的复现模式;或者
与所述事件相关联的所述音频信号的属性。
21.一种用于向用户提供反馈的计算机实现的方法,包括:
接收环境声音测量,所述环境声音测量使用可穿戴设备的两个或更多个麦克风来测量;
基于所测量的环境声音来确定事件;
确定所述事件相对于所述可穿戴设备的位置属性;以及
使得基于所述事件和所述位置属性来向所述用户提供反馈。
22.根据权利要求21所述的计算机实现的方法,其中所述反馈包括除了消除所述环境声音的音频内容之外还播放空间化音频提示。
23.根据权利要求21所述的计算机实现的方法,其中基于所测量的环境声音来确定所述事件包括:
测量所述事件的声音水平的量值;以及
使用与所述事件相关联的音频信号来确定所述事件相对于所述可穿戴设备的位置,其中基于从所述音频信号处理的方向和距离来确定所述事件的所述位置,并且其中所述事件的所述位置属性包括所述方向或所述距离中的至少一者。
24.根据权利要求23所述的计算机实现的方法,其中基于所述环境声音来确定所述事件还包括基于以下各项中的至少一者来排除事件事情:
所述事件相对于所述可穿戴设备的所述位置;
与所述事件相关联的所述音频信号中的复现模式;或者
与所述事件相关联的所述音频信号的属性。
25.根据权利要求23所述的计算机实现的方法,其中基于所测量的环境声音来确定所述事件包括:
确定所述事件的所述声音水平的所述量值超过对应于所述事件相对于所述可穿戴设备的所述位置的阈值。
26.根据权利要求25所述的方法,其中所述阈值基于所述事件相对于所述可穿戴设备的所述位置而变化,并且所述阈值随着所述事件的所述位置变得更接近所述用户而增大。
27.一种用于向可穿戴设备的用户提供反馈的方法,包括:
使用所述可穿戴设备上的两个或更多个麦克风来测量环境声音;
基于所测量的环境声音超过阈值来确定事件,其中所述阈值在对应于两个或更多个不同情境标准的两个或更多个不同配置事件中变化;以及
基于所确定的事件来向所述用户提供反馈。
28.根据权利要求27所述的方法,其中所述两个或更多个不同情境标准中的每一者包括关于以下各项中的至少一者的定制配置:
与所确定的事件相关联的所述阈值;
所述事件相对于所述可穿戴设备的位置属性;或者
基于所确定的事件给所述用户的所述反馈。
29.根据权利要求28所述的方法,其中所述定制配置由所述用户输入。
30.根据权利要求29所述的方法,还包括:
将所述定制配置与所确定的事件相对于所述可穿戴设备的所述位置属性相关联;以及
基于所述用户的所述输入和所述关联来识别用于基于所述位置属性来确定一般配置规则的模式。
31.根据权利要求28所述的方法,其中所述定制配置包括默认出厂配置。
32.根据权利要求27所述的方法,其中所述两个或更多个不同情境标准中的每一者包括相对于所述可穿戴设备的位置属性,所述位置属性基于使用所述可穿戴设备的所述两个或更多个麦克风测量的所述环境声音来确定。
33.根据权利要求32所述的方法,其中所述阈值包括对应于所述两个或更多个不同情境标准中的一者的最小或最大距离。
34.根据权利要求32所述的方法,其中所述阈值包括对应于所述两个或更多个不同情境标准中的一者的方向。
35.根据权利要求32所述的方法,其中所述两个或更多个不同情境标准中的每一者对应于所述可穿戴设备的物理位置。
36.根据权利要求27所述的方法,其中所述两个或更多个不同情境标准中的每一者包括声音类别,所述声音类别包括话音、背景声音或音乐序列中的至少一者。
37.根据权利要求36所述的方法,其中所述背景声音包括警报、脚步噪声、交通噪声或声音模式。
38.根据权利要求37所述的方法,其中所述阈值包括对应于所述两个或更多个不同情境标准中的一者的最小声音水平。
39.根据权利要求37所述的方法,其中所述阈值对应于所述两个或更多个不同情境标准中的所述一者的灵敏度。
40.根据权利要求27所述的方法,其中提供所述反馈包括向所述用户播放所述环境声音的记录副本。
41.根据权利要求40所述的方法,其中播放所述记录副本包括基于由所述可穿戴设备中的反馈麦克风采集的数据来放大或衰减所述环境声音的所述记录副本。
42.根据权利要求41所述的方法,其中由所述可穿戴设备的移动触发放大或衰减所述环境声音的所述记录副本。
43.根据权利要求42所述的方法,其中播放所述记录副本包括基于所述可穿戴设备的所述移动来延迟播放所述记录副本。
44.根据权利要求28所述的方法,还包括:
使所述环境声音与所述位置属性相关达一时间段;
生成映射所述环境声音在所述时间段内在不同位置处的变化的显著性图;
测量所述可穿戴设备在所述时间段内的移动记录;以及
基于所述移动记录与所述显著性图之间的关系来确定所述用户的响应。
45.根据权利要求27所述的方法,其中确定所述事件还包括:
将所测量的环境声音传输到第二设备以供处理;以及
从所述第二设备接收所确定的事件和对应的所述反馈以提供给所述用户,其中所述第二设备具有比所述可穿戴设备更大的处理能力。
46.一种系统,包括:
可穿戴设备,所述可穿戴设备具有被配置为测量环境声音的两个或更多个麦克风;和
与所述可穿戴设备连接的计算设备,所述计算设备被配置为:
从所述可穿戴设备接收所测量的环境声音;
基于所述环境声音超过阈值来确定事件,其中所述阈值在对应于两个或更多个不同情境标准的两个或更多个不同配置事件中变化;以及
使得基于所述事件来向用户提供反馈。
47.根据权利要求46所述的系统,其中所述可穿戴设备被配置为:
评估用于基于所述环境声音超过所述阈值来本地确定事件的时间要求;以及
当所述时间要求超过等待周期时,将所测量的环境声音传输到所述可穿戴设备以供确定。
48.根据权利要求46所述的系统,其中所述两个或更多个不同情境标准中的每一者包括关于以下各项中的至少一者的定制配置:
与所确定的事件相关联的所述阈值;
所述事件相对于所述可穿戴设备的位置属性;或者
基于所确定的事件给所述用户的所述反馈。
49.根据权利要求48所述的系统,其中所述计算设备被进一步配置为从所述用户接收所述定制配置,其中所述用户在所述计算设备的图形界面上输入所述定制配置。
50.根据权利要求49所述的系统,其中所述可穿戴设备包括噪声消除音频设备,并且所述计算设备包括智能电话。
51.一种存储指令的非暂态计算机可读介质,所述指令当由可穿戴设备执行时使得所述可穿戴设备:
使用所述可穿戴设备上的两个或更多个麦克风来测量环境声音;
基于所测量的环境声音超过阈值来确定事件,其中所述阈值在对应于两个或更多个不同情境标准的两个或更多个不同配置事件中变化;以及
基于所确定的事件来向用户提供反馈。
CN202180069204.9A 2020-09-22 2021-09-03 具有定位反馈的听力增强和可穿戴系统 Pending CN116324969A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/027,919 US11467666B2 (en) 2020-09-22 2020-09-22 Hearing augmentation and wearable system with localized feedback
US17/027,919 2020-09-22
PCT/US2021/049008 WO2022066393A1 (en) 2020-09-22 2021-09-03 Hearing augmentation and wearable system with localized feedback

Publications (1)

Publication Number Publication Date
CN116324969A true CN116324969A (zh) 2023-06-23

Family

ID=78078372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180069204.9A Pending CN116324969A (zh) 2020-09-22 2021-09-03 具有定位反馈的听力增强和可穿戴系统

Country Status (5)

Country Link
US (1) US11467666B2 (zh)
EP (1) EP4218263A1 (zh)
JP (1) JP2023542968A (zh)
CN (1) CN116324969A (zh)
WO (1) WO2022066393A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11343612B2 (en) * 2020-10-14 2022-05-24 Google Llc Activity detection on devices with multi-modal sensing
KR20220054504A (ko) * 2020-10-23 2022-05-03 현대자동차주식회사 차량 및 그 제어방법
US11729573B2 (en) * 2021-05-18 2023-08-15 Snap Inc. Audio enhanced augmented reality
USD1024121S1 (en) * 2021-11-16 2024-04-23 Huawei Technologies Co., Ltd. Display screen or portion thereof with transitional graphical user interface
US12041417B2 (en) * 2022-06-02 2024-07-16 Gn Hearing A/S Hearing device with own-voice detection
CN118351878A (zh) * 2023-01-13 2024-07-16 奥图码股份有限公司 环境状态辨识与互动方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6966837B1 (en) * 2001-05-10 2005-11-22 Best Robert M Linked portable and video game systems
TW200723081A (en) * 2005-12-13 2007-06-16 Universal Scient Ind Co Ltd Circular multimedia playback progress indicator and method of indicating signals thereof
SG133437A1 (en) * 2005-12-21 2007-07-30 Creative Tech Ltd An interface for enhanced movement of objects in a display
US8632409B2 (en) * 2010-05-11 2014-01-21 Bungie, Llc Method and apparatus for online rendering of game files
US9443415B2 (en) * 2013-02-06 2016-09-13 Michael Nepo Disseminating information to facilitate user safety
US20160132046A1 (en) * 2013-03-15 2016-05-12 Fisher-Rosemount Systems, Inc. Method and apparatus for controlling a process plant with wearable mobile control devices
US10262462B2 (en) * 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
US9663031B2 (en) * 2013-10-21 2017-05-30 Harman International Industries, Inc. Modifying an audio panorama to indicate the presence of danger or other events of interest
US9469247B2 (en) * 2013-11-21 2016-10-18 Harman International Industries, Incorporated Using external sounds to alert vehicle occupants of external events and mask in-car conversations
US10425717B2 (en) * 2014-02-06 2019-09-24 Sr Homedics, Llc Awareness intelligence headphone
US9998847B2 (en) * 2016-11-17 2018-06-12 Glen A. Norris Localizing binaural sound to objects
US10679602B2 (en) * 2018-10-26 2020-06-09 Facebook Technologies, Llc Adaptive ANC based on environmental triggers

Also Published As

Publication number Publication date
US20220091674A1 (en) 2022-03-24
US11467666B2 (en) 2022-10-11
JP2023542968A (ja) 2023-10-12
EP4218263A1 (en) 2023-08-02
WO2022066393A1 (en) 2022-03-31

Similar Documents

Publication Publication Date Title
US10817251B2 (en) Dynamic capability demonstration in wearable audio device
US11467666B2 (en) Hearing augmentation and wearable system with localized feedback
US10721571B2 (en) Separating and recombining audio for intelligibility and comfort
CN114080589B (zh) 自动主动降噪(anr)控制以改善用户交互
US9271077B2 (en) Method and system for directional enhancement of sound using small microphone arrays
US10224019B2 (en) Wearable audio device
US8194865B2 (en) Method and device for sound detection and audio control
US10922044B2 (en) Wearable audio device capability demonstration
CN113905320B (zh) 为考虑语音检测而调节声音回放的方法和系统
EP3695618B1 (en) Augmented environmental awareness system
US10636405B1 (en) Automatic active noise reduction (ANR) control
US11895474B2 (en) Activity detection on devices with multi-modal sensing
WO2021101821A1 (en) Active transit vehicle classification
US20210266655A1 (en) Headset configuration management
US20230229383A1 (en) Hearing augmentation and wearable system with localized feedback
US11782673B2 (en) Controlling audio output
WO2022254834A1 (ja) 信号処理装置、信号処理方法およびプログラム
US20230035531A1 (en) Audio event data processing
EP4184507A1 (en) Headset apparatus, teleconference system, user device and teleconferencing method
CN118555524A (zh) 用于音频设备的依赖于环境的音频处理
TW202314684A (zh) 對來自多個麥克風的音訊信號的處理
WO2023010012A1 (en) Audio event data processing
CN117499837A (zh) 音频处理方法、装置以及音频播放设备
CN118020314A (zh) 音频事件数据处理
CN118020313A (zh) 处理来自多个麦克风的音频信号

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination