CN113647116A - 生成双耳音频的头戴式装置 - Google Patents

生成双耳音频的头戴式装置 Download PDF

Info

Publication number
CN113647116A
CN113647116A CN202080024964.3A CN202080024964A CN113647116A CN 113647116 A CN113647116 A CN 113647116A CN 202080024964 A CN202080024964 A CN 202080024964A CN 113647116 A CN113647116 A CN 113647116A
Authority
CN
China
Prior art keywords
microphone
signal
beamformer
headset
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080024964.3A
Other languages
English (en)
Inventor
M·阿斯富
D·胡
P·T·M·西蒙斯
V·L·W·利梅特凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Snap Inc
Original Assignee
Snap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Snap Inc filed Critical Snap Inc
Publication of CN113647116A publication Critical patent/CN113647116A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/50Constructional details
    • H04N23/51Housings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/50Constructional details
    • H04N23/54Mounting of pick-up tubes, electronic image sensors, deviation or focusing coils
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R19/00Electrostatic transducers
    • H04R19/04Microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0141Head-up displays characterised by optical features characterised by the informative content of the display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/003Mems transducers or their use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/07Mechanical or electrical reduction of wind noise generated by wind passing a microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

用于生成双耳音频内容的头戴式装置包括耦接到第一麦克风外壳的第一杆,该第一麦克风外壳分别包围生成声学信号的第一前麦克风和第一后麦克风。第一麦克风外壳包括面向下的第一前端口和面向后的第一后端口。装置包括耦接到第二麦克风外壳的第二杆,该第二麦克风外壳分别包围生成声学信号的第二前麦克风和第二后麦克风。第二麦克风外壳包括面向下的第二前端口和面向后的第二后端口。装置包括双耳音频处理器,该双耳音频处理器包括波束成形器和存储设备。波束成形器基于来自第一前麦克风和第一后麦克风的声学信号生成第一波束成形器信号,并基于来自第二前麦克风和第二后麦克风的声学信号生成第二波束成形器信号。存储设备将第一和第二波束成形器信号存储为双通道文件。

Description

生成双耳音频的头戴式装置
优先权要求
本申请要求于2019年3月29日提交的美国专利申请序列号第16/370,190号的优先权,该申请通过引用整体并入本文。
背景技术
当前,许多消费电子设备适于捕获音频和/或视觉内容。例如,用户可以使用移动设备上的内置相机快速捕获用户生活中发生的事件或瞬间。
然而,取回移动设备所需的时间可能仍然太长而无法捕获稍纵即逝的一些事件或时刻。用户还可能感觉好像他们必须将自己从存在和经历事件或时刻中移除以取回他们的移动设备。此外,当回放时,使用移动设备记录的内容的音频部分可能无法充分再现用户感知的声音。
附图说明
在不一定按比例绘制的附图中,相同的标记可以在不同的视图中描述相似的组件。具有不同字母后缀的相同标记可以表示相似组件的不同实例。一些实施例以示例而非限制的方式在附图中示出,在附图中:
图1示出根据一个示例实施例的用于生成双耳音频的头戴式装置的透视图。
图2示出根据一个示例实施例的来自图1的头戴式装置的底视图。
图3A-3B示出根据示例实施例的来自图1的头戴式装置的一个麦克风外壳的部分的细节。
图4是根据本公开的各个方面的使用来自图1的头戴式装置生成双耳音频的过程的示例性流程图。
图5示出根据一个示例实施例的用于生成包括在来自图1的头戴式装置中的双耳音频的系统的框图。
图6示出根据一个示例实施例的包括在图5中的系统中的双耳音频处理器的框图。
图7是示出可以与在此描述的各种硬件架构结合使用的代表性软件架构的框图。
图8是示出根据一些示例性实施例的能够从机器可读介质(例如,机器可读存储介质)读取指令并执行在此讨论的任何一种或多种方法的机器的组件的框图。
图9是经由各种网络通信地耦接移动设备和服务器系统的示例头戴式装置的高级功能框图。
具体实施方式
下面的描述包括体现本公开的说明性实施例的系统、方法、技术、指令序列和计算机器程序产品。在以下描述中,为了解释的目的,阐述了许多具体细节以提供对本发明主题的各种实施例的理解。然而,对于本领域技术人员显而易见的是,可以在没有这些具体细节的情况下实践本发明主题的实施例。通常,不必详细示出众所周知的指令实例、协议、结构和技术。
为了改进由当前电子移动设备捕获的音频记录,本公开的一些实施例涉及一种可捕获音频内容的头戴式装置100,该音频内容在回放时是对由头戴式装置100的用户感知的声音的模仿。具体地,头戴式装置100可以使用麦克风来记录音频,该麦克风被布置为针对收听者创建如同在记录音频时存在的3维(3D)声音感觉。这称为双耳音频。捕获的音频内容的回放将具有双耳音频的效果,该音频具有立体声分离度和模仿人耳和头部响应的频谱内容。头戴式装置100的设计尤其使用了人头部的衍射模式、麦克风在头部两侧的放置以及波束成形技术。
图1示出了根据一个示例实施例的用于生成双耳音频的头戴式装置100的透视图。图2示出根据一个示例实施例的来自图1的头戴式装置100的底视图。在图1和图2中,头戴式装置100是一副眼镜。在一些实施例中,头戴式装置100可以是太阳镜或护目镜。一些实施例可以包括一个或多个可穿戴设备,诸如具有集成相机的吊坠,该集成相机与头戴式装置100或客户端设备集成、通信或耦接到头戴式装置100或客户端设备。任何所需的可穿戴设备都可以与本公开的实施例结合使用,诸如手表、耳机、腕带、耳塞、衣服(诸如带有集成电子设备的帽子或夹克)、夹式电子设备,或任何其它可穿戴设备。应当理解,虽然未示出,包括在头戴式装置中的系统的一个或多个部分可以被包括在可以与头戴式装置100结合使用的客户端设备(例如,图8中的机器800)中。例如,如图5和图6中所示的一个或多个元件可以包括在头戴式装置100和/或客户端设备中。
如在此所使用的,术语“客户端设备”可以指与通信网络以接口连接以从一个或多个服务器系统或其它客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、台式计算机、膝上型计算机、便携式数字助理(PDA)、智能手机、平板计算机、超级本、上网本、膝上型计算机、多处理器系统、基于微处理器的或可编程的消费电子产品、游戏机、机顶盒或用户可用于访问网络的任何其它通信设备。
在图1和图2中,头戴式装置100是一副眼镜,其包括框架103,该框架103包括分别经由铰链和尾端件耦接到两个杆(或脚丝(镜腿))的眼线(或镜框))。镜框103的眼线承载或保持一对镜片104_1、104_2。框架103包括耦接到第一杆的第一(例如,右)侧和耦接到第二杆的第二(例如,左)侧。第一侧与框架103的第二侧相对。
装置100进一步包括相机模块,该相机模块包括相机镜头102_1、102_2和至少一个图像传感器。相机镜头可以是透视相机镜头或非透视相机镜头。非透视相机镜头可以是例如鱼眼镜头、广角镜头、全向镜头等。图像传感器通过相机镜头捕获数字视频。图像也可以是静止图像帧或包括多个静止图像帧的视频。相机模块可耦接到框架103。如图1和图2中所示,框架103耦接到相机镜头102_1、102_2,使得相机镜头面向前方。相机镜头102_1、102_2可以垂直于镜片104_1、104_2。相机模块可以包括由框架103的宽度或装置100的用户的头部的宽度分开的双前置相机。
在图1和图2中,两个杆(或脚丝)分别耦接到麦克风外壳101_1、101_2。第一杆和第二杆耦接到头戴式装置100的框架103的相对侧。第一杆耦接到第一麦克风外壳101_1并且第二杆耦接到第二麦克风外壳101_2。麦克风外壳101_1、101_2可以耦接到框架103的位置和脚丝脚套之间的杆。当用户佩戴装置100时,麦克风外壳101_1、101_2可以位于用户脚丝的任一侧。
如图2中所示,麦克风外壳101_1、101_2包围多个麦克风110_1至110_N(N>1)。麦克风110_1至110_N是将声音转换为电信号的空中接口拾音设备。更具体地,麦克风110_1至110_N是将声压转换为电信号(例如,声学信号)的换能器。麦克风110_1至110_N可以是数字或模拟微机电系统(MEMS)麦克风。由麦克风110_1至110_N生成的声学信号可以是脉冲密度调制(PDM)信号。
在图2中,第一麦克风外壳101_1包围麦克风110_3和110_4,而第二麦克风外壳101_2包围麦克风110_1和110_2。在第一麦克风外壳101_1中,第一前麦克风110_3和第一后麦克风110_4间隔预定距离d1并形成一阶差分麦克风阵列。在第二麦克风外壳101_2中,第二前麦克风110_1和第二后麦克风110_2也间隔预定距离d2并形成一阶差分麦克风阵列。预定距离d1和d2可以是相同距离或不同距离。可以基于奈奎斯特频率设定预定距离d1和d2。波束成形器的奈奎斯特频率以上的内容是不可恢复的,特别是语音。奈奎斯特频率由以下方程式确定:
Figure BDA0003281705520000041
在该方程式中,c是声速,并且d是麦克风之间的间隔。使用该方程式,在一个实施例中,预定距离d1和d2可以设定为导致频率高于6kHz(这是宽带语音的截止频率)的任何d值。
虽然在图1中,系统100包括四个麦克风110_1至110_4,但麦克风的数量可以变化。在一些实施例中,麦克风外壳101_1、101_2可以包括至少两个麦克风并且可以形成麦克风阵列。麦克风外壳101_1、101_2中的每一个还可以包括电池。
用户自然地通过头部分隔的两只耳朵感知音频,使得用户能够区分声音源自的方向。因此,通过将麦克风外壳101_1、101_2放置在头戴式装置100的杆上,头戴式装置100可以实现捕获佩戴头戴式装置100的用户所感知的声音。
参考图2,麦克风外壳101_1、101_2中的每一个包括前端口和后端口。第一麦克风外壳101_1的前端口耦接到麦克风110_3(例如第一前麦克风)并且第一麦克风外壳101_1的后端口耦接到麦克风110_4(例如第一后麦克风)。第二麦克风外壳101_2的前端口耦接到麦克风110_1(例如第二前麦克风)并且第二麦克风外壳101_2的后端口耦接到麦克风110_2(例如第二后麦克风)。在一个实施例中,麦克风101_1至101_4可进一步朝向装置100的杆(例如,装置100的背面)上的脚丝脚套移动以强调由麦克风捕获的双耳效应。
图3A-3B示出根据示例实施例的来自图1的头戴式装置的一个麦克风外壳的部分的细节。具体地,图3A示出麦克风110_1(例如第二前麦克风)和与其相关联的前端口的细节。虽然图3A示出耦接到第二麦克风外壳101_2中的前端口的麦克风110_1的细节,但是应当理解,耦接到第一麦克风外壳101_1中的前端口的麦克风110_3(例如,第一前麦克风)的细节类似于图3A中的细节。
图3A是前麦克风110_1和声学路径112的剖视图。如图所示,声学路径112穿过块体114(例如,第二麦克风外壳101_2)和第二杆的外壳113之间的间隔。杆的外壳113可以由金属制成。前麦克风110_1和前端口指向(或面向)向下。例如,当用户站立并佩戴装置100时,图3A中的前端口在朝向用户在地面上的脚的方向中打开。该设计允许前声学端口的长度和声质量最小,同时确保前麦克风110_1被保护在可减少噪声效应(例如,风噪声湍流等)的小区域(pocket)中。
图3B示出根据一个示例实施例的来自图1的头戴式装置的另一部分的细节。具体地,图3B示出麦克风110_2(例如第二后麦克风)和与其相关联的后端口的细节。虽然图3B示出耦接到第二麦克风外壳101_2中的后端口的麦克风110_2的细节,但是应当理解,耦接到第一麦克风外壳101_1中的后端口的麦克风110_4(例如,第一后麦克风)的细节类似于图3B中的细节。
图3B是后麦克风110_2和声学路径112的剖视图。如图所示,声学路径112穿过块体114(例如,第二麦克风外壳101_2)和第二杆的外壳113之间的间隔。图3B中的杆的外壳113也可以由金属制成。后麦克风110_2和后端口指向(或面向)向后。例如,当用户佩戴装置100时,图3B中的后端口在朝向用户的头部背面或装置100的后部(例如,朝向脚丝末端)的方向中打开。由于在该实施例中端口是向后的,当用户佩戴装置100时避免了与后端口的直接风接触。该设计进一步允许后声学端口的长度和声质量最小,同时确保后麦克风110_2被保护在能够降低噪声效应(例如,风噪声湍流等)的小区域中。在一个实施例中,可将机械滤波器应用于后麦克风110_2以进一步提高抗噪性。
如图3A-3B中所示,麦克风110_1至110_4可以是麦克风组件叠层的一部分,该叠层包括柔性电路板和压敏粘合剂(PSA)叠层,该压敏粘合剂(PSA)叠层包括夹在PSA层之间的防水膜。防水膜可以保护麦克风110_1至110_4免于进水和漏气。PSA叠层然后耦接到麦克风组件外壳。在一些实施例中,麦克风组件外壳是第二杆的块体114或外壳113。
图4是根据本公开的各个方面的使用来自图1的头戴式装置100生成双耳音频的过程的示例性流程图。尽管流程图可能将操作描述为顺序过程,但许多操作可以并行或并发执行。此外,可以重新安排操作的顺序。过程在其操作完成时终止。过程可以对应于方法、程序等。方法的步骤可以全部或部分地执行,可以与其它方法中的一些或全部步骤结合执行,并且可以由任何数量的不同系统(诸如图1和/或图8中描述的系统)执行。过程400还可以由包括在图1中的头戴式装置100中的处理器或由包括在图8的客户端设备800中的处理器来执行。
过程400开始于操作401,其中麦克风110_1至110_4生成声学信号。麦克风110_1至110_4可以是将声压转换为电信号(例如,声学信号)的MEMS麦克风。第一前麦克风110_3和第一后麦克风110_4被包围在耦接在头戴式装置100的第一杆上的第一麦克风101_1外壳中。第一前麦克风110_3和第一后麦克风110_4形成一阶微分麦克风阵列。第二前麦克风110_1和第二后麦克风110_2被包围在耦接在头戴式装置100的第二杆上的第二麦克风外壳101_2中。第二前麦克风110_1和第二后麦克风110_2形成一阶微分麦克风阵列。第一杆和第二杆耦接到头戴式装置100的框架103的相对侧。声学信号可以是脉冲密度调制(PDM)信号。
在操作402处,音频编解码器501_1、501_2解码来自麦克风110_1至110_4的声学信号。音频编解码器501_2解码来自第一前麦克风110_和第一后麦克风110_4的声学信号以生成第一解码声学信号,并且音频编解码器501_1解码第二前麦克风110_1和第二后麦克风110_2以生成第二解码声学信号。第一和第二解码声学信号是脉冲编码调制(PCM)信号。第一解码声学信号是基于来自第一前麦克风110_3和第一后麦克风110_4的声学信号的PCM信号。第二解码声学信号是基于来自第二前麦克风110_1和第二后麦克风110_2的声学信号的PCM信号。
在操作403处,TDM 502处理来自音频编解码器501_1、501_2的解码声学信号。TDM502通过时分复用第一和第二解码声学信号来处理第一和第二解码声学信号。经TDM处理的信号包括第一解码声学信号和第二解码声学信号。
在操作404处,波束成形器601对经TDM处理的信号进行波束成形。如下文进一步描述的,波束成形器601可以是包括为亚心形或心形的固定波束图案的固定波束成形器。波束成形器601对第一解码信号进行波束成形以生成第一波束成形器信号,并对第二解码信号进行波束成形以生成第二波束成形器信号。
在操作405处,存储设备604将波束成形器信号存储为双通道文件。双通道文件可以是双通道PCM文件或双通道高级音频编码(AAC)/PCM文件。存储设备604可以是闪存设备。
在一个实施例中,噪声抑制器602抑制来自第一波束成形器信号和第二波束成形器信号的噪声并生成第一经噪声抑制的信号和第二经噪声抑制的信号。语音增强器603可以对来自第一经噪声抑制的信号和第二经噪声抑制的信号的语音进行增强,以分别生成第一干净信号和第二干净信号。在该实施例中,存储设备604将第一和第二干净信号存储为双通道PCM文件。
图5示出根据一个示例实施例的用于生成包括在来自图1的头戴式装置100中的双耳音频的系统500的框图。在一些实施例中,系统500的一个或多个部分可以被包括在头戴式装置100中或者可以被包括在可以与头戴式装置100结合使用的客户端设备(例如,图8中的机器800)中。
系统500包括麦克风110_1至110_N、音频编解码器501_1、501_2、时分复用器(TDM)502和二进制音频处理器503。在第一麦克风外壳101_1中包围的第一前麦克风110_3和第一后麦克风110_4形成一阶差分麦克风阵列。类似地,在第二麦克风外壳101_2中包围的第二前麦克风110_1和第二后麦克风110_2形成另一个一阶差分麦克风阵列。麦克风110_1至110_4可以是模拟或数字MEMS麦克风。由麦克风110_1至110_4生成的声学信号可以是脉冲密度调制(PDM)信号。
音频编解码器501_1解码来自第一前麦克风110_3和第一后麦克风110_4的声学信号以生成第一解码声学信号。音频编解码器501_2解码来自第二前麦克风110_1和第二后麦克风110_2的声学信号以生成第二解码声学信号。第一和第二解码声学信号可以是脉冲编码调制(PCM)信号。在一个实施例中,音频编解码器501_1、501_2将作为PDM信号的声学信号从单比特PDM格式解码为多比特脉冲编码调制(PCM)格式。音频编解码器501_1、501_2可以包括带有将PDM信号转换为PCM格式的滤波器的PDM输入。在一个实施例中,音频编解码器501_1、501_2使用具有同步串行接口的微控制器来捕获来自麦克风110_1至110_4的PDM数据流,并使用在软件中实现的滤波器将PDM数据流转换为PCM格式。
PCM信号可以由双耳音频处理器503的接口解释。在一些实施例中,双耳音频处理器503是片上硅(SoC)。SoC可以包括一个接口,诸如I2S接口,以接收和解释PCM信号。
在一个实施例中,双耳音频处理器503的接口只能处理一个分组(例如,2个通道的音频),系统500中的时分复用器(TDM)502接收并处理第一和第二解码声学信号(例如,PCM信号)以生成经TDM处理的信号。TDM 502时分复用第一和第二解码声学信号以生成经TDM处理的信号。在一个实施例中,系统500进一步对经TDM处理的信号进行过采样以允许输入四个麦克风信号。系统500还可以包括用于创建额外插槽以允许麦克风信号的开关。
在一个实施例中,麦克风110_1至110_4是数字MEMS麦克风。由数字MEMS麦克风生成的声学信号相对不受噪声影响,但由于麦克风110_1至110_4输出与SoC(诸如双耳音频处理器503)之间的寄生电容、电阻和电感产生的失真,信号完整性仍然是一个问题。阻抗失配也会产生反射,该反射在数字麦克风110_1至110_4与SoC之间距离较长的应用中会使信号失真。在一个实施例中,麦克风110_1至110_4附接到柔性电路,该柔性电路被设计为最大化信号完整性并且还最小化元件之间的迹线长度。在该实施例中,柔性电路被包围在麦克风外壳101_1、101_2中。
图6示出根据一个示例实施例的包括在图5中的系统500中的双耳音频处理器503的框图。双耳音频处理器503包括波束成形器601、噪声抑制器602、语音增强器603和存储设备604。
在一个实施例中,双耳音频处理器503包括接收经TDM处理的信号的接口。如上所述,根据来自第一前麦克风110_3、第一后麦克风110_4、第二前麦克风110_1和第二后麦克风110_2的声学信号生成经TDM处理的信号。在一个实施例中,麦克风110_1至110_4是固有全向性的数字MEMS麦克风。
具有方向转向特性的波束成形器601是差分波束成形器,其允许除奈奎斯特频率之外的平坦频率响应。波束成形器601使用一阶差分麦克风阵列的传递函数。对于两个麦克风,一阶差分麦克风阵列的传递函数如下:
Figure BDA0003281705520000101
Figure BDA0003281705520000102
在上面的这些方程式中,thetaθ是角度,并且betaβ是180度,对于固定频率(或频率独立)波束(例如波束成形器信号),该方程式简化为E=A+B cos θ。简化方程式中的E是波束成形器的固定频率输出。在一个实施例中,波束成形器601是包括固定波束图案的固定波束成形器,该波束图案是具有分别为0.25和0.75的A和B系数的亚心形。在一个实施例中,波束成形器601是固定波束成形器,该固定波束成形器包括具有分别为0.5和0.5的A和B系数的心形的固定波束图案。
在一个实施例中,波束成形器601接收来自第一前麦克风110_3、第一后麦克风110_4、第二前麦克风110_1和第二后麦克风110_2的声学信号。在一个实施例中,波束成形器601接收经TDM处理的信号。波束成形器601基于来自第一前麦克风110_3和第一后麦克风110_4的声学信号生成第一波束成形器信号,以及基于来自第二前麦克风110_1和第二后麦克风110_2的声学信号生成第二波束成形器信号。存储设备604可以将第一和第二波束成形器信号存储为双通道文件。
噪声抑制器602抑制来自第一波束成形器信号和第二波束成形器信号的噪声。噪声抑制器602是双通道噪声抑制器,并生成第一经噪声抑制的信号和第二经噪声抑制的信号。在一个实施例中,噪声抑制器602可以实现噪声抑制算法。
语音增强器603增强来自第一经噪声抑制的信号和第二经噪声抑制的信号的语音以生成第一干净信号和第二干净信号。在一个实施例中,语音增强器603可以实现基于模型的语音增强。语音增强器603可以在第一和第二经噪声抑制的信号中搜索多个语音特征。当语音增强器603识别出第一和第二经噪声抑制的信号中与语音特征中的至少一个语音特征匹配的部分时,语音增强器603增强或强调所识别的部分。在一个实施例中,语音增强器603可以实现语音增强算法。
存储设备604将来自语音增强器603的第一和第二干净信号存储为双通道文件。双通道文件可以是表示左右通道的双通道PCM文件(或双通道AAC/PCM文件)。存储设备604可以是闪存设备。
图7是示出可以与在此描述的各种硬件架构结合使用的示例性软件架构706的框图。图7是软件架构的非限制性示例,并且可以理解,可以实现许多其它架构以促进在此描述的功能。软件架构706可以在诸如图8的机器8的硬件上执行,其中包括处理器804、存储器814和I/O组件818。代表性硬件层752被示出并且可以表示例如图8的机器800。代表性硬件层752包括具有相关联的可执行指令704的处理单元754。可执行指令704表示软件架构706的可执行指令,包括在此描述的方法、组件等的实现方式。硬件层752还包括存储器或存储模块存储器/存储设备756,其也具有可执行指令704。硬件层752还可以包括其它硬件758。
如在此所使用的,术语“组件”可指具有由功能或子例程调用、分支点、应用程序接口(API)或提供特定处理或控制功能的分区或模块化的其它技术所定义的边界的设备、物理实体或逻辑。组件可以经由它们的接口与其它组件组合以执行机器过程。组件可以是设计用于与其它组件一起使用的封装功能硬件单元,以及通常执行相关功能的特定功能的程序的一部分。
组件可以构成软件组件(例如,在机器可读介质上体现的代码)或硬件组件。“硬件组件”是能够执行某些操作的有形单元,并且可以以某种物理方式配置或布置。在各种示例实施例中,一个或多个计算机系统(例如,独立计算机系统、客户端计算机系统或服务器计算机系统)或计算机系统的一个或多个硬件组件(例如,处理器或一组处理器)可以通过软件(例如,应用或应用部分)将其配置为进行操作以执行如在此所述的某些操作的硬件组件。硬件组件还可以机械地、电子地或以其任何合适的组合来实现。例如,硬件组件可以包括被永久配置为执行某些操作的专用电路或逻辑。
硬件组件可以是专用处理器,诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。硬件组件还可以包括由软件临时配置以执行某些操作的可编程逻辑或电路。例如,硬件组件可以包括由通用处理器或其它可编程处理器执行的软件。在由该软件配置后,硬件组件就成为特定的机器(或机器的特定组件),其被独特地定制以执行所配置的功能并且不再是通用处理器。应当理解,可以由成本和时间考虑来驱动在专用和永久配置的电路中或在临时配置的电路(例如,由软件配置)中机械地实现硬件组件的决定。
处理器可以是或包括任何电路或虚拟电路(由在实际处理器上执行的逻辑所模拟的物理电路),其根据控制信号(例如,“命令”、“操作码”、“机器代码”等)操纵数据值并产生应用于操作机器的对应输出信号。例如,处理器可以是中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)或其任何组合。处理器可以进一步是具有可以同时执行指令的两个或更多个独立处理器(有时称为“核”)的多核处理器。
因此,短语“硬件组件”(或“硬件实现的组件”)应该被理解为包含有形实体,即在物理上构造、永久配置(例如,硬连线)或临时配置(例如,编程)的实体,以某种方式操作或执行在此所述的某些操作。考虑其中硬件组件被临时配置(例如,编程)的实施例,不需要在任何一个时刻配置或实例化硬件组件中的每个硬件组件。例如,在硬件组件包括由软件配置成为专用处理器的通用处理器的情况下,通用处理器可以在不同时间被配置为相应不同的专用处理器(例如,包括不同的硬件组件)。软件相应地配置特定的一个或多个处理器,例如,在一个时刻构成特定的硬件组件,并在不同的时刻构成不同的硬件组件。硬件组件可以向其它硬件组件提供信息并从其接收信息。因此,所描述的硬件组件可以被视为被通信地耦接。在同时存在多个硬件组件的情况下,可以通过在两个硬件组件之间或更多个硬件组件之中的信号传输(例如,通过适当的电路和总线)来实现通信。在其中在不同时间配置或实例化多个硬件组件的实施例中,例如通过在对多个硬件组件可访问的存储器结构中的信息的存储和取得,可以实现这种硬件组件之间的通信。
例如,一个硬件组件可以执行操作并将该操作的输出存储在与其通信地耦接的存储设备中。然后,另一硬件组件可以稍后访问存储设备以取得和处理所存储的输出。硬件组件还可以启动与输入或输出设备的通信,并且可以在资源(例如,信息集合)上操作。在此描述的示例方法的各种操作可以至少部分地由临时配置(例如,通过软件)或永久配置为执行相关操作的一个或多个处理器来执行。无论是临时配置还是永久配置,该处理器可以构成处理器实现的组件,其用于执行在此描述的一个或多个操作或功能。如在此所使用的,“处理器实现的组件”是指使用一个或多个处理器实现的硬件组件。类似地,在此描述的方法可以至少部分地由处理器实现,其中特定的一个处理器或多个处理器是硬件的示例。例如,方法的操作中的至少一些操作可以由一个或多个处理器或处理器实现的组件来执行。
此外,一个或多个处理器还可以操作以支持“云计算”环境中的相关操作的性能或作为“软件即服务”(SaaS)。例如,操作中的至少一些操作可以由一组计算机(作为包括处理器的机器的示例)执行,这些操作可以经由网络(例如,互联网)并且经由一个或多个适当的接口(例如,应用程序接口(API))访问。操作中的某些操作的性能可以在处理器之间分配,不仅驻留在单个机器内,而且部署在多个机器上。在一些示例实施例中,处理器或处理器实现的组件可以位于单个地理位置(例如,在家庭环境、办公室环境或服务器群内)。在其它示例实施例中,处理器或处理器实现的组件可以分布在多个地理位置上。
在图7的示例性架构中,软件架构706可以概念化为层的堆栈,其中每个层提供特定功能。例如,软件架构706可以包括诸如操作系统702、库720、应用716和呈现层714的层。在操作上,层内的应用716或其它组件可以通过软件堆栈调用应用程序接口(API)API调用708,并响应于API调用708接收消息712。所示的层本质上是代表性的,并且并非所有软件架构都具有所有层。例如,一些移动或专用操作系统可能不提供框架/中间件718,而其它操作系统可提供这种层。其它软件架构可以包括附加层或不同层。
操作系统702可以管理硬件资源并提供公共服务。操作系统702可以包括例如内核722、服务724和驱动器726。内核722可以充当硬件和其它软件层之间的抽象层。例如,内核722可以负责存储器管理、处理器管理(例如,调度)、组件管理、联网、安全设置等。服务724可以为其它软件层提供其它公共服务。驱动器726负责控制硬件或与底层硬件接口连接。例如,取决于硬件配置,驱动器726包括显示驱动器、相机驱动器、
Figure BDA0003281705520000142
Figure BDA0003281705520000141
驱动器、闪存驱动器、串行通信驱动器(例如,通用串行总线(USB)驱动器)、
Figure BDA0003281705520000143
驱动器、音频驱动器、电源管理驱动器等等。
库720提供由应用916或其它组件或层使用的公共基础结构。库720提供允许其它软件组件以比直接与底层操作系统702功能(例如,内核722、服务724或驱动器726)直接接口更容易的方式执行任务的功能。库720可以包括系统库744(例如,C标准库),其可以提供诸如存储器分配功能、字符串操作功能、数学功能等的功能。另外,库720可以包括API库746,诸如媒体库(例如,用于支持各种媒体格式的呈现和操作的库,媒体格式诸如MPEG4、H.264、MP3、AAC、AMR、JPG、PNG)、图形库(例如,可用于在显示器上的图形内容中呈现二维和三维的OpenGL框架)、数据库库(例如,可提供各种关系数据库功能的SQLite)、web库(例如,可提供web浏览功能的WebKit)等。库720还可以包括以向应用716和其它软件组件/模块提供许多其它API的各种其它库748。
框架/中间件718(有时也称为中间件)提供可由应用716或其它软件组件/模块使用的更高级别的公共基础结构。例如,框架/中间件718可以提供各种图形用户界面(GUI)功能、高级资源管理、高级位置服务等。框架/中间件718可以提供可以由应用716或其它软件组件/模块使用的广泛范围的其它API,其中的一些可以专用于特定操作系统702或平台。
应用716包括内置应用738或第三方应用940。代表性内置应用738的示例可包括但不限于联系人应用、浏览器应用、书籍阅读器应用、位置应用、媒体应用、消息传递应用和/或游戏应用。第三方应用740可以包括由特定平台的供应商以外的实体使用软件开发工具包(SDK)开发的应用,并且可以是在移动操作系统上运行的移动软件。第三方应用740可以调用由移动操作系统(诸如操作系统702)提供的API调用708以促进在此描述的功能。
应用716可以使用内置操作系统功能(例如,内核722、服务724或驱动器726)、库720和框架/中间件718来创建用户界面以与系统的用户交互。可替代地或另外地,在一些系统中,与用户的交互可以通过呈现层(诸如呈现层714)发生。在这些系统中,应用/组件“逻辑”可以与和用户交互的应用/组件的方面分离。
图8是示出根据一些示例性实施例的机器800的组件(在此也称为“模块”)的框图,机器800能够从机器可读介质(例如,机器可读存储介质)读取指令并执行在此讨论的任何一个或多个方法。具体地,图8示出采用计算机系统的示例形式的机器800的图形表示,在该机器800内可以执行用于使机器800执行在此所讨论的任何一种或多种方法的指令810(例如,软件、程序、应用、小应用程序、应用软件或其它可执行代码)。这样,指令810可以用于实现在此描述的模块或组件。指令810将通用的未编程的机器800转换成被编程为以所描述的方式执行所描述和示出的功能的特定机器800。在替代实施例中,机器800作为独立装置操作或者可以耦接(例如,联网)到其它机器。在联网部署中,机器800可以在服务器-客户端网络环境中以服务器机器或客户端机器的能力操作,或者作为对等(或分布式)网络环境中的对等机器操作。机器800可以包括但不限于服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能手机、移动设备、可穿戴设备(例如,智能手表)、智能家居设备(例如,智能家电)、其它智能设备、web装置、网络路由器、网络交换机、网络桥接器或能够顺序地或以其它方式执行指定机器800要采取的动作的指令810的任何机器。此外,尽管仅示出了单个机器800,但是术语“机器”还应被视为包括机器的集合,该机器的集合单独或联合执行指令1010以实施在此所讨论的任何一种或多种方法。
机器800可以包括可以被配置为诸如经由总线802彼此通信的处理器804、存储器/存储设备806和I/O组件818。存储器/存储设备806可以包括存储器814,诸如主存储器或其它存储器存储设备,以及存储单元816,两者都可由处理器804诸如经由总线802访问。存储单元816和存储器814存储体现在此描述的任何一种或多种方法或功能的指令810。指令810还可以在机器800的其执行期间完全或部分地驻留在存储器814内,存储单元816内,处理器804中的至少一个处理器内(例如,处理器的高速缓冲存储器内),或其任何合适的组合内。因此,存储器814、存储单元816和处理器804的存储器是机器可读介质的示例。
如在此所使用的,术语“机器可读介质”、“计算机可读介质”等可以指能够临时或永久地存储指令和数据的任何组件、设备或其它有形介质。这种介质的示例可包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、缓冲存储器、闪存、光学介质、磁介质、高速缓存、其它类型的存储(例如、可擦除可编程只读存储器(EEPROM))或其任何合适的组合。术语“机器可读介质”应被视为包括能够存储指令的单个介质或多个介质(例如,集中式或分布式数据库,或相关联的缓存和服务器)。术语“机器可读介质”还可以被认为包括能够存储由机器执行的指令(例如,代码)的任何介质或多种介质的组合,使得指令在由机器的一个或多个处理器执行时使机器执行在此描述的任何一种或多种方法。因此,“机器可读介质”可以指单个存储装置或设备,以及包括多个存储装置或设备的“基于云的”存储系统或存储网络。术语“机器可读介质”不包括信号本身。
I/O组件818可以包括多种组件以提供用于接收输入、提供输出、产生输出、传输信息、交换信息、捕获测量等的用户界面。包括在特定机器800的用户界面中的具体I/O组件818将取决于机器的类型。例如,诸如移动电话的便携式机器将可能包括触摸输入设备或其它这种输入机构,而无头服务器机器将可能不包括这种触摸输入设备。应当理解,I/O组件818可以包括图8中未示出的许多其它组件。仅仅是为了简化以下讨论,根据功能对I/O组件818进行分组,并且分组决不是限制性的。在各种示例性实施例中,I/O组件818可以包括输出组件826和输入组件828。输出组件826可以包括可视组件(例如显示器,诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT))、声学组件(例如扬声器)、触觉组件(例如,振动马达、电阻机构)、其它信号发生器等。输入组件828可以包括字母数字输入组件(例如,键盘、配置为接收字母数字输入的触摸屏、光电键盘或其它字母数字输入组件)、基于点的输入组件(例如,鼠标、触摸板、轨迹球、操纵杆、运动传感器或其它指向仪器)、触感输入组件(例如,物理按钮,提供触摸或触摸手势的位置或力的触摸屏,或其它触感输入组件)、音频输入组件(例如,麦克风)等。输入组件828还可包括一个或多个图像捕获设备,诸如用于生成数字图像或视频的数码相机。
在进一步的示例性实施例中,I/O组件818可以包括生物度量组件830、运动组件834、环境组件836或定位组件838,以及大量其它组件。一个或多个这种组件(或其部分)在此可以统称为“传感器组件”或“传感器”,用于收集与机器800、机器800的环境、机器800的用户或其组合有关的各种数据。
例如,生物度量组件830可以包括检测表情(例如手部表情、面部表情、语音表情、身体姿势或眼睛跟踪)、测量生物信号(例如,血压、心率、体温、汗水或脑波)、识别人(例如,语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的组件。运动组件834可包括加速度传感器组件(例如,加速度计)、重力传感器组件、速度传感器组件(例如速度计)、旋转传感器组件(例如陀螺仪)等。环境组件836可包括例如照明传感器组件(例如,光度计)、温度传感器组件(例如,检测环境温度的一个或多个温度计)、湿度传感器组件、压力传感器组件(例如气压计)、声学传感器组件(例如,检测背景噪声的一个或多个麦克风)、接近度传感器组件(例如,检测附近物体的红外传感器)、气体传感器(例如,用于为了安全而检测危险气体浓度或测量大气中的污染物的气体检测传感器)或可能提供与周围物理环境相对应的指示、测量或信号的其它组件。定位组件838可包括位置传感器组件(例如,全球定位系统(GPS)接收器组件)、高度传感器组件(例如,高度计或气压计,其可以检测可以从其导出高度的空气压力)、取向传感器组件(例如,磁力计)等。例如,位置传感器组件可以提供与系统800相关联的位置信息,诸如系统800的GPS坐标或关于系统1000当前所在位置的信息(例如,餐厅或其他企业的名称)。
可以使用各种技术来实现通信。I/O组件818可以包括通信组件840,其可操作以分别经由耦接器822和耦接器824将机器800耦接到网络832或设备820。例如,通信组件840可以包括网络接口组件或其它合适的设备以与网络832接口连接。在进一步的示例中,通信组件840可以包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(NFC)组件、
Figure BDA0003281705520000182
Figure BDA0003281705520000183
组件(例如,
Figure BDA0003281705520000181
低功率)、
Figure BDA0003281705520000184
组件和以经由其它模式提供通信的其它通信组件。设备820可以是另一机器或各种外围设备中的任何一种(例如,经由通用串行总线(USB)耦接的外围设备)。
此外,通信组件840可以检测标识符或包括可操作以检测标识符的组件。例如,通信组件840可以包括射频识别(RFID)标签读取器组件、NFC智能标签检测组件、光学读取器组件(例如,光学传感器,其用于检测诸如通用产品代码(UPC)条形码的一维条形码、诸如快速响应(QR)代码、Aztec代码、Data Matrix、Dataglyph、MaxiCode、PDF417、超码、UCC RSS-2D条形码的多维条形码,以及其它光学代码),或声学检测组件(例如,用于识别所标记的音频信号的麦克风)。此外,可以经由通信组件840来导出各种信息,例如经由互联网协议(IP)地理位置的位置、经由
Figure BDA0003281705520000191
信号三角测量的位置、经由检测可以指示特定位置的NFC信标信号的位置等。
图9是经由各种网络通信地耦接移动设备800和服务器系统998的示例头戴式装置100的高级功能框图。
装置100包括相机,诸如可见光相机950、红外发射器951和红外相机952中的至少一个。相机可以包括具有图1和2中的镜片104_1、104_2的相机模块。
客户端设备800可以能够使用低功率无线连接925和高速无线连接937二者与装置100连接。客户端设备800连接到服务器系统998和网络995。网络995可以包括有线和无线连接的任何组合。
装置100进一步包括光学组件980A-B的两个图像显示器。两个图像显示器980A-980B包括与装置100的左横向侧相关联的一个显示器和与右横向侧相关联的一个显示器。装置100还包括图像显示驱动器942、图像处理器912、低功率电路920和高速电路930。光学组件980A-B的图像显示器用于向装置100的用户呈现图像和视频,包括可以包括图形用户界面的图像。
图像显示驱动器942命令并控制光学组件980A-B的图像显示器。图像显示驱动器942可以将图像数据直接传送到光学组件980A-B的图像显示器以供呈现,或者可能必须将图像数据转换成适合传送到图像显示设备的信号或数据格式。例如,图像数据可以是根据压缩格式格式化的视频数据,诸如H.264(MPEG-4Part 10)、HEVC、Theora、Dirac、RealVideoRV40、VP8、VP9等,以及静止图像数据可以根据诸如便携式网络组(PNG)、联合图像专家组(JPEG)、标记图像文件格式(TIFF)或可交换图像文件格式(Exif)等压缩格式来格式化。
如上所述,装置100包括框架103和从框架103的横向侧延伸的杆(或脚丝)。装置100进一步包括用户输入设备991(例如,触摸传感器或按钮),其包括在装置100上的输入表面。用户输入设备991(例如,触摸传感器或按钮)将从用户接收输入选择以操纵所呈现图像的图形用户界面。
图9中所示的用于装置100的组件位于镜框或脚丝中的例如PCB或柔性PCB的一个或多个电路板上。可替代地或另外地,所描绘的组件可以位于装置100的块体、框架、铰链或中梁。左右可见光相机950可以包括数码相机元件,诸如互补金属氧化物半导体(CMOS)图像传感器、电荷耦接设备、镜片104_1、104_2或可用于捕获数据(包括具有未知对象的场景的图像)的任何其它相应的可见光或光捕获元件。
装置100包括存储器934,该存储器934存储指令以执行在此描述的用于生成双耳音频内容的功能的子集或全部。存储器934还可以包括存储设备604。图4的流程图中所示的示例性过程可以在存储在存储器934中的指令中实现。
如图9中所示,高速电路930包括高速处理器932、存储器934和高速无线电路936。在该示例中,图像显示驱动器942耦接到高速电路930并且由高速处理器932操作以驱动光学组件980A-B的左右图像显示器。高速处理器932可以是能够管理装置100所需的任何通用计算系统的高速通信和操作的任何处理器。高速处理器932包括使用高速无线电路936管理到无线局域网(WLAN)的高速无线连接937上的高速数据传输所需的处理资源。在某些示例中,高速处理器932执行操作系统,诸如LINUX操作系统或装置100的其它这种操作系统,并且操作系统存储在存储器934中以供执行。除了任何其它职责之外,执行装置100的软件架构的高速处理器932用于管理与高速无线电路936的数据传输。在某些示例中,高速无线电路936被配置为实现电气和电子工程师协会(IEEE)802.11通信标准,在此也称为Wi-Fi。在其它示例中,其它高速通信标准可以由高速无线电路936实现。
装置100的低功率无线电路924和高速无线电路936可以包括短距离收发机(BluetoothTM)和无线广域网、局域网或广域网收发机(例如,蜂窝或WiFi)。客户端设备800(包括经由低功率无线连接925和高速无线连接937进行通信的收发机)可以使用装置100的架构的细节来实现,网络995的其它元件也可以。
存储器934包括能够存储各种数据和应用的任何存储设备,其中包括由左右可见光相机950、红外相机952和图像处理器912生成的相机数据,以及用于显示在光学组件980A-B的图像显示器上的由图像显示驱动器942生成的图像。虽然存储器934被示为与高速电路930集成,但在其它示例中,存储器934可以是装置100的独立的单独元件。在某些这种示例中,电气布线可以通过包括高速处理器932的芯片提供从图像处理器912或低功率处理器922到存储器934的连接。在其它示例中,高速处理器932可以管理存储器934的寻址使得每当需要涉及存储器934的读取或写入操作时,低功率处理器922将启动高速处理器932。
如图9中所示,装置100的处理器932可以耦接到相机(可见光相机950;红外发射器951,或红外相机952)、图像显示驱动器942、用户输入设备991(例如,触摸传感器或按钮)和存储器934。
装置100与主机计算机连接。例如,装置100经由高速无线连接937与客户端设备800配对或经由网络995连接到服务器系统998。服务器系统998可以是作为服务或网络计算系统的一部分的一个或多个计算设备,例如,其包括处理器、存储器和网络通信接口以通过网络995与客户端设备800和装置100通信。
客户端设备800包括处理器和耦接到处理器的网络通信接口。网络通信接口允许通过网络925或937进行通信。客户端设备800可以进一步在客户端设备800的存储器中存储用于生成双耳音频内容的指令的至少部分以实现在此描述的功能。
装置100的输出组件包括视觉组件,诸如显示器,诸如液晶显示器(LCD)、等离子显示面板(PDP)、发光二极管(LED)显示器、投影仪或波导。光学组件的图像显示由图像显示驱动器942驱动。装置100的输出组件进一步包括声学组件(例如,扬声器)、触觉组件(例如,振动马达)、其它信号发生器等。装置100、客户端设备800和服务器系统998的输入组件(诸如用户输入设备991)可以包括字母数字输入组件(例如,键盘、被配置为接收字母数字输入的触摸屏、光电键盘或其它字母数字输入组件)、基于点的输入组件(例如,鼠标、触摸板、轨迹球、操纵杆、运动传感器或其它指向仪器)、触感输入组件(例如,物理按钮、触摸屏,提供触摸或触摸手势的位置和力,或其它触感输入组件)、音频输入组件(例如,麦克风)等。
装置100可以可选地包括附加的外围设备元件。这种外围设备元件可以包括与装置100集成的生物度量传感器、附加传感器或显示元件。例如,外围设备元件可以包括任何I/O组件,包括输出组件、运动组件、位置组件,或在此描述的任何其它此类元件。
例如,生物度量组件包括用于检测表情(例如,手部表情、面部表情、语音表情、身体姿势或眼睛追踪)、测量生物信号(例如,血压、心率、体温、汗水、或脑电波)、识别人(例如,语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等。运动组件包括加速度传感器组件(例如,加速度计)、重力传感器组件、旋转传感器组件(例如,陀螺仪)等。定位组件包括用于生成位置坐标的位置传感器组件(例如,全球定位系统(GPS)接收机组件)、用于生成定位系统坐标的WiFi或蓝牙TM收发机、高度传感器组件(例如,检测气压的高度计或气压计,从中可以导出高度)、取向传感器组件(例如,磁力计)等。这种定位系统坐标也可以经由低功率无线电路924或高速无线电路936通过无线连接925和937从客户端设备800接收。
在使用类似于“A、B或C中的至少一个”、“A、B和C中的至少一个”、“一个或多个A、B或C”或“A、B和C中的一个或多个”的短语的情况下,意图将该短语解释为表示A可以单独存在于一个实施例中,B单独可以存在于一个实施例中,C单独可以存在于一个实施例中,或者元素A、B和C的任何组合可以存在于单个实施例中;例如,A和B、A和C、B和C,或A和B和C。
在不脱离本公开的范围的情况下,可以对所公开的实施例进行改变和修改。这些和其它改变或修改旨在包括在本公开的范围内,如以下权利要求中所表达的。

Claims (20)

1.一种头戴式装置,包括:
框架;
第一杆,其耦接到所述框架的第一侧并且耦接到第一麦克风外壳,所述第一麦克风外壳分别包围生成声学信号的第一前麦克风和第一后麦克风,
所述第一麦克风外壳包括面向下的第一前端口和面向后的第一后端口,
第二杆,其耦接到所述框架的第二侧并且耦接到第二麦克风外壳,所述第二麦克风外壳分别包围生成声学信号的第二前麦克风和第二后麦克风,
所述第二麦克风外壳包括面向下的第二前端口和面向后的第二后端口;以及
双耳音频处理器,其包括
波束成形器,以
接收来自所述第一前麦克风、所述第一后麦克风、所述第二前麦克风和所述第二后麦克风的声学信号,以及
生成
基于来自所述第一前麦克风和所述第一后麦克风的声学信号的第一波束成形器信号,以及
基于来自所述第二前麦克风和所述第二后麦克风的声学信号的第二波束成形器信号,以及
存储设备,用于将所述第一波束成形器信号和所述第二波束成形器信号存储为双通道文件。
2.根据权利要求1所述的头戴式装置,其中,所述可穿戴设备是一副眼镜,其中,所述框架的所述第一侧与所述框架的所述第二侧相对。
3.根据权利要求2所述的头戴式装置,其中,当用户佩戴所述一副眼镜时,所述第一前端口和所述第二前端口面向下朝向所述用户的脚,而所述第一后端口和所述第二后端口面向所述用户的头部背面。
4.根据权利要求3所述的头戴式装置,其中,所述框架承载一对镜片并耦接到相机,其中,所述相机的相机镜头面向前方。
5.根据权利要求1所述的头戴式装置,其中,所述波束成形器是固定波束成形器。
6.根据权利要求4所述的头戴式装置,其中,所述固定波束成形器包括亚心形或心形的固定波束图案。
7.根据权利要求1所述的头戴式装置,其中,所述第一前麦克风和所述第一后麦克风形成一阶差分麦克风阵列,并且所述第二前麦克风和所述第二后麦克风形成一阶差分麦克风阵列。
8.根据权利要求1所述的头戴式装置,其中,所述存储设备是闪存设备。
9.根据权利要求1所述的头戴式装置,其中,所述双耳音频处理器是片上硅(SoC)。
10.根据权利要求1所述的头戴式装置,进一步包括:
第一音频编解码器,其对来自所述第一前麦克风和所述第一后麦克风的声学信号进行解码以生成第一经解码的声学信号;
第二音频编解码器,其对来自所述第二前麦克风和所述第二后麦克风的声学信号进行解码以生成第二经解码的声学信号。
11.根据权利要求10所述的头戴式装置,进一步包括:
时分复用器(TDM),其处理所述第一经解码的声学信号和所述第二经解码的声学信号,并生成经TDM处理的信号。
12.根据权利要求11所述的头戴式装置,其中,由所述第一前麦克风和所述第二前麦克风以及所述第一后麦克风和所述第二后麦克风生成的声学信号是脉冲密度调制(PDM)信号。
13.根据权利要求12所述的头戴式装置,其中,所述第一经解码的声学信号和所述第二经解码的声学信号是脉冲编码调制(PCM)信号。
14.根据权利要求13所述的头戴式装置,其中,所述双耳音频处理器进一步包括:
噪声抑制器,其抑制来自所述第一波束成形器信号和所述第二波束成形器信号的噪声并生成第一经噪声抑制的信号和第二经噪声抑制的信号。
15.根据权利要求14所述的头戴式装置,其中,所述双耳音频处理器进一步包括:
语音增强器,其增强来自所述第一经噪声抑制的信号和所述第二经噪声抑制的信号的语音以生成第一干净信号和第二干净信号,其中,所述存储设备存储所述第一干净信号和所述第二干净信号。
16.一副眼镜,其包括:
框架,其承载一对镜片;
相机,其耦接到所述框架,其中,所述相机的相机镜头面向向前方向;
第一杆,其耦接到所述框架的第一侧并且耦接到第一麦克风外壳,所述第一麦克风外壳分别包围生成声学信号的第一前麦克风和第一后麦克风,
所述第一麦克风外壳包括面向向下方向的第一前端口和面向向后方向的第一后端口,
第二杆,其耦接到所述框架的第二侧并且耦接到第二麦克风外壳,所述第二麦克风外壳分别包围生成声学信号的第二前麦克风和第二后麦克风,
所述第二麦克风外壳包括面向所述向下方向的第二前端口和面向所述向后方向的第二后端口;以及
双耳音频处理器,其包括
波束成形器,其生成
基于来自所述第一前麦克风和所述第一后麦克风的声学信号的第一波束成形器信号,以及
基于来自所述第二前麦克风和所述第二后麦克风的声学信号的第二波束成形器信号,以及
存储设备,其用于将所述第一波束成形器信号和所述第二波束成形器信号存储为双通道文件。
17.根据权利要求16所述的一副眼镜,其中,所述波束成形器是固定波束成形器,其中,所述固定波束成形器包括亚心形或心形的固定波束图案。
18.根据权利要求16所述的一副眼镜,进一步包括:
第一音频编解码器,其对来自所述第一前麦克风和所述第一后麦克风的声学信号进行解码以生成第一经解码的声学信号;
第二音频编解码器,其对来自所述第二前麦克风和所述第二后麦克风的声学信号进行解码以生成第二经解码的声学信号;以及
时分复用器(TDM),其处理所述第一经解码的声学信号和所述第二经解码的声学信号,并生成经TDM处理的信号。
19.根据权利要求16所述的一副眼镜,其中,所述双耳音频处理器进一步包括:
噪声抑制器,其抑制来自所述第一波束成形器信号和所述第二波束成形器信号的噪声并生成第一经噪声抑制的信号和第二经噪声抑制的信号;以及
语音增强器,其增强来自所述第一经噪声抑制的信号和所述第二经噪声抑制的信号的语音以生成第一干净信号和第二干净信号,其中,所述存储设备存储所述第一干净信号和所述第二干净信号。
20.一种使用头戴式装置生成双耳音频内容的方法,包括:
分别由第一前麦克风和第一后麦克风生成声学信号,其中,所述第一前麦克风和所述第一后麦克风被包围在第一麦克风外壳中,所述第一麦克风外壳耦接到所述头戴式装置的第一杆;
分别由第二前麦克风和第二后麦克风生成声学信号,其中,所述第二前麦克风和所述第二后麦克风被包围在第二麦克风外壳中,所述第二麦克风外壳耦接到所述头戴式装置的第二杆,其中,所述第一杆和所述第二杆耦接到所述头戴式装置的框架的相对侧;
由第一音频编解码器对来自所述第一前麦克风和所述第一后麦克风的声学信号进行解码以生成第一经解码的声学信号,其中,所述第一经解码的声学信号是基于来自所述第一前麦克风和所述第一后麦克风的声学信号的脉冲编码调制(PCM)信号;
由第二音频编解码器对来自所述第二前麦克风和所述第二后麦克风的声学信号进行解码以生成第二经解码的声学信号,其中,所述第二经解码的声学信号是基于来自所述第二前麦克风和所述第二后麦克风的声学信号的PCM信号;
由时分复用器(TDM)处理所述第一经解码的声学信号和所述第二经解码的声学信号以生成经TDM处理的信号,其中,所述经TDM处理的信号包括所述第一经解码的声学信号和所述第二经解码的声学信号;
由波束成形器对所述经TDM处理的信号进行波束成形,其中,对所述经TDM处理的信号进行波束成形包括
对所述第一经解码的信号进行波束成形以生成第一波束成形器信号,以及
对所述第二经解码的信号进行波束成形以生成第二波束成形器信号;以及
由存储设备将所述第一波束成形器信号和所述第二波束成形器信号存储为双通道文件。
CN202080024964.3A 2019-03-29 2020-03-12 生成双耳音频的头戴式装置 Pending CN113647116A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/370,190 2019-03-29
US16/370,190 US10567898B1 (en) 2019-03-29 2019-03-29 Head-wearable apparatus to generate binaural audio
PCT/US2020/022311 WO2020205194A1 (en) 2019-03-29 2020-03-12 Head-wearable apparatus to generate binaural audio

Publications (1)

Publication Number Publication Date
CN113647116A true CN113647116A (zh) 2021-11-12

Family

ID=69528473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080024964.3A Pending CN113647116A (zh) 2019-03-29 2020-03-12 生成双耳音频的头戴式装置

Country Status (5)

Country Link
US (4) US10567898B1 (zh)
EP (1) EP3949442A1 (zh)
KR (3) KR102506593B1 (zh)
CN (1) CN113647116A (zh)
WO (1) WO2020205194A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11632640B2 (en) 2019-03-29 2023-04-18 Snap Inc. Head-wearable apparatus to generate binaural audio

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10469974B2 (en) * 2018-03-15 2019-11-05 Philip Scott Lyren Method to expedite playing of binaural sound to a listener
EP3991450A1 (en) 2019-06-28 2022-05-04 Snap Inc. Dynamic beamforming to improve signal-to-noise ratio of signals captured using a head-wearable apparatus
US11163167B2 (en) * 2019-11-06 2021-11-02 Microsoft Technology Licensing, Llc Flexible printed circuit board for head-mounted display
WO2021173667A1 (en) * 2020-02-28 2021-09-02 Bose Corporation Asymmetric microphone position for beamforming on wearables
US11546691B2 (en) 2020-06-04 2023-01-03 Northwestern Polytechnical University Binaural beamforming microphone array
US11497028B2 (en) * 2020-06-05 2022-11-08 Meta Platforms Technologies, Llc Interference mitigation through SINR-based iterative distributed beam selection
EP4262562A1 (en) 2020-12-18 2023-10-25 Snap Inc. Head-wearable apparatus for breathing analysis

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111706A (zh) * 2009-12-29 2011-06-29 Gn瑞声达A/S 助听器中的波束形成
CN104717587A (zh) * 2013-12-13 2015-06-17 Gn奈康有限公司 用于音频信号处理的耳机和方法
US9973849B1 (en) * 2017-09-20 2018-05-15 Amazon Technologies, Inc. Signal quality beam selection

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL1021485C2 (nl) 2002-09-18 2004-03-22 Stichting Tech Wetenschapp Hoorbril-samenstel.
US7806525B2 (en) * 2003-10-09 2010-10-05 Ipventure, Inc. Eyeglasses having a camera
NL2000085C2 (nl) 2006-06-02 2007-12-04 Varibel B V Bril met gehoorondersteuningsmiddelen welke slechts één omnidirectionele microfoon per oorbeugel gebruikt.
WO2009132646A1 (en) 2008-05-02 2009-11-05 Gn Netcom A/S A method of combining at least two audio signals and a microphone system comprising at least two microphones
US20110091057A1 (en) * 2009-10-16 2011-04-21 Nxp B.V. Eyeglasses with a planar array of microphones for assisting hearing
US10231065B2 (en) 2012-12-28 2019-03-12 Gn Hearing A/S Spectacle hearing device system
WO2014163796A1 (en) 2013-03-13 2014-10-09 Kopin Corporation Eyewear spectacle with audio speaker in the temple
US9363596B2 (en) * 2013-03-15 2016-06-07 Apple Inc. System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device
WO2015109002A2 (en) * 2014-01-17 2015-07-23 Okappi, Inc. Hearing assistance system
KR20170067682A (ko) 2014-05-26 2017-06-16 블라디미르 셔먼 음향 신호 수집을 위한 코드 실행가능 방법, 회로, 장치, 시스템 및 관련 컴퓨터
US9426584B2 (en) 2014-10-03 2016-08-23 Umm Al-Qura University Direction indicative hearing apparatus and method
US10231056B2 (en) 2014-12-27 2019-03-12 Intel Corporation Binaural recording for processing audio signals to enable alerts
WO2017135899A1 (en) 2016-02-03 2017-08-10 Nanyang Technological University Methods for detecting a sleep disorder and sleep disorder detection devices
US20200184043A1 (en) * 2018-12-11 2020-06-11 Avago Technologies International Sales Pte. Limited Multimedia content recognition with local and cloud-assisted machine learning
US10567898B1 (en) 2019-03-29 2020-02-18 Snap Inc. Head-wearable apparatus to generate binaural audio
EP3991450A1 (en) * 2019-06-28 2022-05-04 Snap Inc. Dynamic beamforming to improve signal-to-noise ratio of signals captured using a head-wearable apparatus
US11857311B2 (en) 2020-03-17 2024-01-02 Prime Dragon Limited Multi-purpose video monitoring camera
EP4125572A1 (en) 2020-03-31 2023-02-08 ResMed Sensor Technologies Limited System and method for mapping an airway obstruction
CN111696575B (zh) 2020-06-19 2023-01-03 杭州电子科技大学 基于混合神经网络模型的低通气和呼吸暂停检测识别系统
US20220192622A1 (en) 2020-12-18 2022-06-23 Snap Inc. Head-wearable apparatus for breathing analysis
EP4262562A1 (en) 2020-12-18 2023-10-25 Snap Inc. Head-wearable apparatus for breathing analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111706A (zh) * 2009-12-29 2011-06-29 Gn瑞声达A/S 助听器中的波束形成
CN104717587A (zh) * 2013-12-13 2015-06-17 Gn奈康有限公司 用于音频信号处理的耳机和方法
US9973849B1 (en) * 2017-09-20 2018-05-15 Amazon Technologies, Inc. Signal quality beam selection

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11632640B2 (en) 2019-03-29 2023-04-18 Snap Inc. Head-wearable apparatus to generate binaural audio

Also Published As

Publication number Publication date
US20200314577A1 (en) 2020-10-01
WO2020205194A1 (en) 2020-10-08
KR20230038302A (ko) 2023-03-17
KR102608630B1 (ko) 2023-12-05
EP3949442A1 (en) 2022-02-09
US11044568B2 (en) 2021-06-22
US20230247378A1 (en) 2023-08-03
KR20210145215A (ko) 2021-12-01
US10567898B1 (en) 2020-02-18
KR102506593B1 (ko) 2023-03-07
US20210345055A1 (en) 2021-11-04
US11632640B2 (en) 2023-04-18
KR20230170106A (ko) 2023-12-18

Similar Documents

Publication Publication Date Title
US11632640B2 (en) Head-wearable apparatus to generate binaural audio
CN112956209B (zh) 声学变焦
US20220366926A1 (en) Dynamic beamforming to improve signal-to-noise ratio of signals captured using a head-wearable apparatus
CN117616381A (zh) 语音控制的设置和导航
KR102672618B1 (ko) 헤드-웨어러블 장치를 사용하여 캡처된 신호들의 신호 대 잡음비를 개선하기 위한 동적 빔포밍
US20230324711A1 (en) Intelligent actuated and adjustable glasses nose pad arms
US20230324710A1 (en) Intelligent actuated nose bridge
US11823002B1 (en) Fast data accessing system using optical beacons
US20220374505A1 (en) Bending estimation as a biometric signal
US20230324713A1 (en) Intelligent actuated temple tips
US20240135555A1 (en) 3d space carving using hands for object capture
WO2023177721A1 (en) Prescription system for flexible lenses
WO2022246382A1 (en) Bending estimation as a biometric signal
KR20240045932A (ko) 위험을 감지하는 전자 장치, 그의 동작 방법 및 프로그램을 저장하는 저장 매체
WO2024050460A1 (en) 3d space carving using hands for object capture
CN117710541A (zh) 音频驱动三维人脸动画模型的生成方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination