CN115699718A - 基于传声器方位对音频数据进行操作的系统、设备和方法 - Google Patents

基于传声器方位对音频数据进行操作的系统、设备和方法 Download PDF

Info

Publication number
CN115699718A
CN115699718A CN202180039165.8A CN202180039165A CN115699718A CN 115699718 A CN115699718 A CN 115699718A CN 202180039165 A CN202180039165 A CN 202180039165A CN 115699718 A CN115699718 A CN 115699718A
Authority
CN
China
Prior art keywords
microphone array
audio
orientation
logic
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180039165.8A
Other languages
English (en)
Inventor
泰勒·拜克
约书亚·沃伦·宾汉
曾宇环
普莱曼·亚历山德罗夫·伊万诺夫
克里斯托弗·埃文斯
迈克尔·阿斯范
延斯·尼尔森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meta Platforms Technologies LLC
Original Assignee
Meta Platforms Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meta Platforms Technologies LLC filed Critical Meta Platforms Technologies LLC
Publication of CN115699718A publication Critical patent/CN115699718A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/50Aspects of automatic or semi-automatic exchanges related to audio conference
    • H04M2203/509Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种电子设备包括传声器阵列、一个或多个传感器、数字信号处理(DSP)逻辑和接口,该传声器阵列被配置为采集音频数据,该一个或多个传感器被配置为检测传声器阵列的方位。该DSP逻辑基于由一个或多个传感器检测到的传声器阵列的方位,对由传声器阵列采集到的音频数据进行处理,以形成音频输入数据。该接口被配置为通过通信信道传输该音频输入数据以使该音频输入数据被另一电子设备输出。

Description

基于传声器方位对音频数据进行操作的系统、设备和方法
技术领域
本公开总体上涉及通信系统,更具体地,涉及具有音频通信能力的视频通信系统。
背景技术
包括视频会议、视频聊天工具和视频聊天服务等的视频电话技术正成为朋友、家人、同事和其他人群彼此之间的越来越受欢迎的交流方式。摄像头硬件(例如,网络摄像头硬件)正越来越多地被添加到各种终端用户设备中,无论是作为集成硬件还是作为附加硬件;这些终端用户设备例如为智能手机、头戴式设备(head-mounted device,HMD)、平板电脑、笔记本电脑、联网电视(或号称“智能电视”)、数字显示器(例如,计算机显示器)。将摄像头硬件越来越多地添加到各联网设备中正提高了,使用多种在线视频电话服务中的任何一种来与他人视频会议的能力。此外,视频电话服务正越来越多地结合了正变得越来越先进的音频通信硬件,音频通信硬件例如为多个具有特定频带输出能力的扬声器、被排列以提供高精度音频采集能力等的多个传声器等。
发明内容
根据本发明,提供了一种电子设备,该电子设备包括传声器阵列、一个或多个传感器、数字信号处理(digital signal processing,DSP)逻辑和接口;该传声器阵列被配置为采集音频数据;该一个或多个传感器被配置为检测传声器阵列的方位。该DSP逻辑基于由该一个或多个传感器检测到的传声器阵列的方位,对由传声器阵列采集到的音频数据进行处理,以形成音频输入数据。该接口被配置为通过通信信道传输该音频输入数据,以使该音频输入数据被另一电子设备输出。
可选地,为了对音频数据进行处理以形成音频输入数据,DSP逻辑可以被配置为基于传声器阵列的方位,舍弃从传声器阵列中的一个或多个单独传声器接收的信号。
可选地,为了对音频数据进行处理以形成音频输入数据,DSP逻辑被配置为基于传声器阵列的方位,将搜索空间约束到从传声器阵列中的一个或多个单独传声器接收的信号上。
可选地,为了对音频数据进行处理以形成音频输入数据,DSP逻辑被配置为使用与传声器阵列的方位对应的音频采集参数集,对音频数据进行处理。
可选地,为了确定与传声器阵列的方位对应的音频采集参数集,DSP逻辑可以被配置为使用查找表从多个音频采集参数集中选择与传声器阵列的方位对应的音频采集参数集。
可选地,为了确定与传声器阵列的方位对应的音频采集参数集,DSP逻辑可以被配置为应用有限元解法,该有限元解法确定与传声器阵列的方位对应的音频采集参数集。
可选地,为了确定与传声器阵列的方位对应的音频采集参数集,DSP逻辑可以被配置为应用人工智能模型或机器学习模型,该人工智能模型或机器学习模型利用传声器阵列的转动角度到多个音频采集参数集中的相应集的映射而被训练,以预测与传声器阵列的方位对应的音频采集参数集,。
可选地,电子设备可以包括显示设备。可选地,传声器阵列可以被固定附接到电子设备的显示设备。
可选地,电子设备的一个或多个传感器被配置为检测显示设备的方位。DSP逻辑可以被配置为基于显示设备的方位,确定传声器阵列的水平坐标角。可选地,为了对音频数据进行处理以形成音频输入数据,DSP逻辑被配置为使用传声器阵列的水平坐标角,对该音频数据进行处理。
可选地,为了对音频数据进行处理以形成音频输入数据,DSP逻辑可以被配置为基于传声器阵列的方位,生成与传声器阵列中的一个或多个单独传声器相关联的虚拟定向传声器,并使用从与该虚拟定向传声器对应的该一个或多个单独传声器接收的信号,来形成音频输入数据。
可选地,该一个或多个传感器可以包括加速度计、位置编码器、陀螺仪或运动传感器中的一个或多个。
根据本发明,还提供了一种方法,该方法包括:由传声器阵列采集音频数据;由一个或多个传感器检测传声器阵列的方位;由数字信号处理(DSP)逻辑,基于由该一个或多个传感器检测到的传声器阵列的方位,对由传声器阵列采集到的音频数据进行处理,以形成音频输入数据;以及,由输入/输出接口通过通信信道传输该音频输入数据。
可选地,对音频数据进行处理以形成音频输入数据可以包括,由DSP逻辑基于传声器阵列的方位,舍弃从传声器阵列中的一个或多个单独传声器接收的信号。
可选地,对音频数据进行处理以形成音频输入数据可以包括,由DSP逻辑基于传声器阵列的方位,将搜索空间限制到从传声器阵列中的一个或多个单独传声器接收的信号上。
可选地,对音频数据进行处理以形成音频输入数据可以包括,由DSP逻辑使用与传声器阵列的方位对应的音频采集参数集,对音频数据进行处理。
可选地,确定与传声器阵列的方位对应的音频采集参数集可以包括,由驱动逻辑应用人工智能模型或机器学习模型,该人工智能模型或机器学习模型利用传声器阵列的转动角度到多个音频采集参数集中相应集的映射而被训练,以预测与传声器阵列的方位对应的音频采集参数集。
可选地,确定与传声器阵列的方位对应的音频采集参数集可以包括,由驱动逻辑使用查找表从多个音频采集参数集中选择与传声器阵列的方位对应的音频采集参数集。
可选地,确定与传声器阵列的方位对应的音频采集参数集可以包括,由驱动逻辑应用有限元解法,该有限元解法确定与传声器阵列的方位对应的音频采集参数集。
可选地,该方法还可以包括:由该一个或多个传感器检测显示设备的方位,传声器阵列被固定附接到该显示设备;以及,由DSP逻辑基于该显示设备的方位,确定传声器阵列的水平坐标角。
可选地,对音频数据进行处理以形成音频输入数据可以包括,由DSP逻辑使用传声器阵列的水平坐标角,对音频数据进行处理。
根据本发明,还提供了一种非暂态(non-transitory)计算机可读存储介质,该非暂态计算机可读存储介质存储一个或多个程序,该一个或多个程序被配置用于由具有传声器阵列、接口、一个或多个传感器和扬声器阵列的电子设备中的一个或多个处理器执行,该一个或多个程序具有多个指令,这些指令在被该一个或多个处理器执行时,使得电子设备:使用传声器阵列采集音频数据;使用一个或多个传感器检测传声器阵列的方位;基于由该一个或多个传感器检测到的传声器阵列的方位,对由传声器阵列采集到的音频数据进行处理,以形成音频输入数据;以及,经由接口通过通信信道传输该音频输入数据。
总体上,本公开描述了具有音频能力和/或视频能力的电话系统,电话系统被配置为基于采集用于电话会话的音频信号的传声器阵列的当前方位,自定义音频输入参数和/或音频输出参数。在一些实例中,传声器阵列被固定附接到视频电话系统的显示设备,并且该显示设备可相对于电话系统的第二部分而改变位置,该电话系统的第二部分例如为包括多个音频输出设备的底座,音频输出设备例如为扬声器。在一些示例中,本公开的电话系统基于会议系统的显示设备的方位,为正由该电话系统的一个或多个扬声器输出的音频数据、或待由该电话系统的一个或多个扬声器输出的音频数据设置均衡参数。
在一些示例中,本公开的电话系统基于会议系统的显示设备的方位,对正经由该电话系统的传声器阵列输入的音频数据、或待经由该电话系统的传声器阵列输入的音频数据设置数字信号处理(DSP)参数。在一些示例中,本公开的电话系统基于该电话系统的显示设备的方位,对正经由该会议系统的传声器阵列输入的音频数据、或待经由该会议系统的传声器阵列输入的音频数据设置回声消除参数。
本公开的电话系统可以在与本公开一致的各种用例场景中实现上述功能中的一个功能、一些功能或全部功能。此外,本公开的视听电话系统可以响应于检测到传声器阵列的位置变化和/或方位变化(例如,显示设备作为该传声器阵列的位置变化和/或方位变化的替代物),对以上列出的多个音频相关参数中的一个或多个进行动态地更新。
本公开的技术和系统配置提供了视频电话技术领域中的一项或多项技术改进。作为一个示例,在将显示器(并因此摄像头)硬件移动到不同位置和/或方位时,本公开的配置可以通过减少由静态传声器配置和/或静态扬声器配置引起的音频-视频偏移,来提高数据精度。作为另一个示例,本公开的配置可以通过基于显示器的位置/方位在传声器阵列的多个输入之中约束搜索空间,来减少计算资源和/或带宽消耗,从而减少待被处理的和/或待通过网络连接被传输的音频数据量。
本公开的配置在许多场景中可能是有利的。例如,本公开的配置在多个参与者从单个位置利用共享设备来参与会议会话的场景中可能是有利的。作为另一个示例,本公开的配置在存在与会议内容无关的环境噪声的场景中可能是有利的。
作为再一个示例,本公开的配置在显示器以将传声器阵列中的一个或多个传声器指向、或大体上指向会议设备的一个或多个说话者的方式而被倾斜的场景中可能是有利的。本公开的视听电话系统可以通过在不中断通信会话的情况下“动态地”修改音频参数,来提供高质量的通信体验,同时适应由一个或多个本地参与者进行的显示设备操作。因此,本公开的技术为视频电话的计算机相关和网络相关领域提供了具体的技术改进。
在以下附图和描述中,对本公开技术的一个或多个示例的细节进行了阐述。通过该描述和附图、以及通过权利要求,这些技术的其他特征、目的和优点将是显而易见的。
附图说明
图1A为描绘了根据本公开技术的参与视听通信会话的示例视频电话系统的图示。
图1B为描绘了图1A中的电话系统及其周边环境的进一步细节的图示。
图2为示出了电话系统的示例的框图,该电话系统实现了本公开的多种基于显示位置的音频数据操作技术中的一种或多种。
图3为示出了根据本公开各方面的基于显示位置的音频呈现过程的示例的流程图,图1A至图2中的电话系统可以执行该基于显示位置的音频呈现过程。
图4为示出了根据本公开各方面的基于显示位置的音频采集过程的示例的流程图,图1A至图2中的电话系统可以执行该基于显示位置的音频采集过程。
图5为示出了根据本公开各方面的基于显示位置的回声消除过程的示例的流程图,图1A至图2中的电话系统可以执行该基于显示位置的回声消除过程。
贯穿这些附图和描述,相同的参考符号指代相同的元件。
具体实施方式
视频电话服务(例如,包括会议组件的多用途通信程序包)在两个或多个参与者之间传输视频数据和音频数据,使得不在同一物理位置的多个参与者之间能够实时或大体上实时的通信。视频电话服务作为民营企业中的通信媒介、对于教育和专业培训/指导而言以及对于政府对公民的信息发布而言,正变得越来越普遍。随着视频电话服务被更普遍地使用、且被用于越来越重要的通信类型,对数据精度和服务可靠性的关注也变得更严峻。
本公开针对的是电话系统的配置,例如视频远程通信硬件,这些配置提高了视听通信会话的音频数据被呈现以用于播放给一个或多个本地参与者的精度。此外,本公开的这些配置使视频电话系统能够在本地输入阶段和/或在传输前的阶段对音频数据进行动态地约束,从而放宽了这些场景中的带宽要求。以这种方式,在视频电话的计算相关和网络相关的技术领域中,本公开的这些配置提供了关于数据精度、计算资源消耗和带宽消耗的技术改进。
例如,电子设备可以包括,包含传声器阵列和一个或多个音频输出设备的设备。在一些实施方式中,该电子设备可以另外包括显示设备,并且传声器阵列可以被固定附接到该显示设备,例如,被附接到该显示设备的边框或被装在该显示设备的一部分的内部。显示设备可以相对于该一个或多个音频输出设备而可改变位置(例如,可滑动和/或可转动)。例如,该一个或多个音频输出设备可以包括置于电话系统的底座中的一个或多个扬声器,并且显示设备可以可移动地耦合至底座。在电话系统的使用期间,底座可以相对于电话系统正被使用时所处的环境(例如,房间)而保持大体上静止。显示设备可以由用户手动移动或者可以在电话系统的控制下移动。在任何情况下,改变显示设备的位置可能导致传声器阵列相对于该一个或多个音频输出设备而改变位置。此外,改变显示设备的位置可能导致传声器阵列相对于电话系统正被使用时所处的环境(例如,房间)而改变位置。
改变传声器阵列的位置可能会影响传声器阵列对音频信号的接收,这些音频信号例如为来自电话会话中的室内参与者的音频信号、以及由电话系统中的一个或多个音频输出设备输出的音频信号。根据本公开的示例,电话系统可以被配置为检测传声器阵列的方位(例如,相对于底座的方位),并且基于检测到的方位控制一个或多个音频处理参数。如本文所使用的,“方位”是指彼此相关的传声器阵列和/或显示器的位置、角度和/或姿态。例如,电话系统可以被配置为基于电话系统中的传声器阵列的方位,为正由电话系统中的一个或多个音频输出设备输出的音频数据、或待由电话系统中的一个或多个音频输出设备输出的音频数据设置均衡参数。
在一些示例中,电话系统可以被配置为基于视频电话系统中的传声器阵列的方位,为正经由传声器阵列输入的音频数据、或待经由传声器阵列输入的音频数据设置数字信号处理(digital signal processing,DSP)参数。在一些示例中,电话系统可以被配置为基于电话系统中的传声器阵列的方位,为正经由传声器阵列输入的音频数据、或将经由传声器阵列输入的音频数据设置回声消除参数。以这种方式,电话系统可以被配置为,对传声器阵列相对于电话系统的环境和/或音频输出设备的方位变化进行至少部分地补偿。
尽管在本公开中主要在作为示例的视频电话技术的背景下对本公开的技术进行了描述,但将理解的是,本公开的技术也可以在其他类型的系统中实现。例如,本公开的配置可以在人工现实系统(artificial reality system)中实现。人工现实是在呈现给用户之前已经以某种方式进行了调整的现实形式,并且人工现实可以包括以下中的一种或多种:虚拟现实(virtual reality,VR)、增强现实(augmented reality,AR)、混合现实(mixedreality,MR)、混合现实(hybrid reality)、或它们的一些组合和/或衍生物。包含本公开音频数据操作技术的人工现实系统可以对通过头戴式设备(head-mounted device,HMD)或其他设备采集和/或呈现以用于播放的音频数据进行更新,上述其他设备包含与被配置为以视觉形式显示人工现实内容的硬件相结合的、显示传声器硬件和/或显示扬声器硬件。
图1A为描绘了示例视频电话系统10的图示,该示例视频电话系统具有参与电话会话的视听电话系统12A和12B。在图1A的示例中,视听电话系统12A和12B参与视频会议会话,并且视听电话系统12A和12B均包括视频输入和输出能力。在其他示例中,本公开的各方面可以应用于音频电话的情景中,例如独立音频会议或音频/视频相结合会议中,并且本公开的各方面可以无缝地应用于这两者之间的转换(例如,如果视频能力由于带宽问题等而被暂时禁用)。
图1A中的视听电话系统12A和12B出于示例的目的而被示出,并且这些视听电话系统可以表示具有音频电话能力和/或音频/视频电话能力的各种设备中的任一种设备,这些设备例如为移动计算设备、笔记本电脑、平板电脑、智能手机、服务器、独立的桌面设备、可穿戴设备(例如,智能眼镜、人工现实HMD、或智能手表)、或专用视频会议设备。如本文所描述的,视听电话系统12A和12B中的至少一个被配置为,基于显示设备18A和18B的方位,设置音频呈现参数、音频采集参数或回声消除参数中的一种。
在图1A的示例中,视频电话系统10包括第一视听电话系统12A,该第一视听电话系统通过通信信道16与第二视听电话系统12B连接。每个视听电话系统12A、12B包括显示设备18A和18B中的一个显示设备、以及图像采集系统20A和20B中的一个图像采集系统。图像采集系统20中的每个图像采集系统配备有图像采集能力(经常辅以并且有时包含一个或多个提供语音采集能力的传声器)。图像采集系统20中的每个图像采集系统包括摄像头硬件,该摄像头硬件被配置为采集周围环境的静态图像和动态图像。
在某些情况下,视频电话系统10可以经由网络与一个或多个计算节点(未示出)通信,该一个或多个计算节点对应于任何形式的计算资源。这些计算节点中的每个计算节点可以是物理计算设备,或者可以是云计算系统、服务器场、和/或服务器集群(或其一部分)中的、向客户端设备和其他设备或系统提供服务的组件。因此,任何这种计算节点可以表示物理计算设备、虚拟计算设备、虚拟机、容器、和/或其他虚拟化计算设备。这些计算节点可以接收、处理和输出视频,以执行本文所描述的技术。这些计算节点可以位于各种高容量计算集群、远程通信集群、或存储系统(例如,由数据中心、网络运营中心或互联网交换中心所容纳的系统)处,或者由各种高容量计算集群、远程通信集群或存储系统以其他方式支持。
在图1A所示的示例中,参与者30A和30B共享和使用视听电话系统12A,以通过通信信道16与操作视听电话系统12B的参与者30C通信。视听电话系统12A包括显示设备18A和图像采集系统20A,而视听电话系统12B包括显示设备18B和图像采集系统20B。在各实施方式中,图像采集系统20A和显示设备18A可以包括在单个设备中,或者可以被分成单独的设备。
显示设备18和图像采集系统20被配置为作为视听电话系统12A和12B的视频通信设备而运行。也就是说,参与者30A和30C可以在音频和/或视频会议会话中使用显示设备18和图像采集系统20通过通信信道16而彼此通信。图像采集系统20A和20B分别采集参与者30A至30C的静态图像和/或动态图像。视听电话系统12A和12B中的计算硬件和网络接口硬件大体上实时地处理采集到的图像,并通过通信信道16大体上实时地传输采集到的图像。
通信信道16可以通过专用网络(例如,局域网(local area network或LAN)、公共网络(例如,互联网)、在公共网络基础设施上实现的私有连接(例如,通过互联网连接而实现的虚拟专用网络(virtual private network或VPN)隧道)、其他类型的分组交换网络等而被实现。视听电话系统12A和12B的网络接口硬件和计算硬件对通过通信信道16传输的图像(例如,视频流)进行接收和处理。显示设备18被配置为,使用通过通信信道16接收、并在本地处理以用于呈现和输出的图像数据(例如,静态图像和/或视频馈送),向参与者30输出该图像数据。
以这种方式,视听电话系统12A和12B通过图像采集系统20、显示设备18使参与者30能够参与视频会议会话。尽管通过视频电话系统10实现的视频会议会话被示出为包括图1A中作为一个非限制性示例的两个主动通信的设备,但将理解的是,本公开的系统和技术是可扩展的,因为在某些场景中,本公开的视频会议会话可以容纳三个或更多个参与设备。本公开的系统和技术还与在参与者数量方面存在会话中变化的视频会议会话兼容,这些视频会议会话例如为在整个会话生命周期内增加和移除一个或多个参与者的视频会议会话。
在图1A的示例中,显示设备18A向参与者30A和30B输出显示内容24。显示内容24表示向参与者30A和30B输出的动态视频序列的静止帧,作为当前正在进行的视频会议会话的一部分。显示内容24包括参与者30C的视觉表示,该参与者为视频电话会话中的参与者30的配合参与者)。在一些示例中,显示内容24还可以包括视频馈入(video feedthrough),以提供对于由图像采集系统20A采集的图像数据如何呈现给视频电话会话中其他用户(例如,通过显示设备18B呈现给参与者30C)的指示。就这一点而言,如果视频馈入被包括在显示内容24中,则该视频馈入将向参与者30A和30B提供低至零的时间滞后表现的图像数据,该图像数据来源于视听电话系统12A的周围环境,并且被显示给视频会议会话中的其他参与者。
视听电话系统12A和12B可以提供隐私设置,这些隐私设置有利于视听电话系统12A的操作者(例如,参与者30A和30C等)单独指定(例如,通过选择退出、通过不选择加入):视听电话系统12A和12B、或任何相关联的在线系统是否可以出于任何目的而接收、收集、记录或存储与参与者相关联的特定对象或特定信息。例如,隐私设置可以允许参与者30A指定:特定的视频采集设备、音频采集设备、应用程序或进程是否可以访问、存储或使用与参与者30A和30B相关联的特定对象或特定信息。隐私设置可以允许参与者30A和30C为各自的视听电话系统12A和12B的用户选择让或不让特定设备、应用程序或进程访问、存储或使用对象或信息。与视听电话系统12A和12B相关联的在线系统在访问、存储或使用这样的对象或信息之前,可以提示参与者30A和30C在允许任何这样的操作之前提供隐私设置,这些隐私设置指定了哪些应用程序或进程(如果有的话)可以访问、存储或使用对象或信息。例如,参与者30A或参与者30C可以指定以下隐私设置:音频数据和可视数据不应被视听电话系统12A和12B和/或任何相关联的在线服务存储,和/或视听电话系统12A和12B和/或任何相关联的在线服务不应存储任何元数据(例如,通信的时间、通信的参与者、通信的持续时间等)和/或与视听电话系统12A和12B的使用相关联的文本消息。
视听电话系统12A和12B还使参与者30A-30C之间的音频通信能够单独进行、或与上述视频馈送大体上同步(例如,具有低至零的偏移量)进行。视听电话系统12A和12B中的每个视听电话系统包含音频采集硬件和音频输出硬件,该音频采集硬件用于采集由一个或多个本地参与者提供的音频通信,该音频输出硬件用于播放通过通信信道16接收的音频通信。如图1A所示,视听电话系统12A包括(或被通信耦接至)传声器阵列22和扬声器阵列26中的每个。视听电话系统12B还可以包括或被耦接至对应的传声器硬件和/或扬声器硬件,但是为了便于基于所示出的视听电话系统12B的视角进行说明,这些设备并未在图1A中明确示出或编号。
传声器阵列22表示包括多个传声器的数据输入组件,该多个传声器被配置为采集来自视听电话系统12A的周围环境的音频数据。在图1A的特定示例中,传声器阵列22被构造为,设置在大体呈球形的球体的表面上的单独传声器集群,该单独传声器集群继而经由所谓的“鹅颈管”安装件或支架而连接至视听电话系统12A的其余部分。在其他示例中,可以将传声器阵列22中的多个单独传声器集成到显示设备18A的边缘中,例如沿着显示设备18A的顶部宽边集成到该显示设备的边缘中。
在一些示例中,传声器阵列22可以表示四-传声器阵列,四个单独传声器中的至少三个被固定安装至显示设备18A的顶边或顶板,并且传声器阵列22中的四个单独传声器被排列成截棱锥阵列的常规形状。在其他示例中,可以以其他方式将传声器阵列22中的多个单独传声器定位在视听电话系统12A的其余组件上/内部/附近。在任何情况下,传声器阵列中的多个单独传声器关于彼此的相对位置是固定的,而不管显示设备18A的位置或方位如何。此外,在一些示例中,传声器阵列22中的多个单独传声器的相对位置相对于视听电话系统12A中的一组件是固定的,例如,相对于显示设备18A是固定的。例如,传声器阵列22可以被固定附接至显示设备18A的一部分,例如显示设备18A的边框。
在一些示例中,传声器阵列22不仅可以采集音频数据,还可以采集对采集到的音频数据的各种属性进行描述的附加元数据。例如,传声器阵列22可以采集音频数据和方向数据的组合。在这些示例中,传声器阵列22可以被总体地配置为采集视听电话系统12A的邻近区域中的三维声场。
无论方向性信息是由传声器阵列22直接采集的、还是由视听电话系统12A中的数字信号处理(DSP)逻辑从总的音频信号间接推测(例如,通过音频波束成形(audiobeamforming)等)的,视听电话系统12A都可以将方向性信息与由传声器阵列22中的每个单独传声器采集的音频数据相关联。就这一点而言,视听电话系统12A可以将方向性信息(无论是由DSP逻辑间接确定的,还是直接从传声器阵列22接收的)附加到从传声器阵列22接收到的一个或多个音频信号上。换言之,视听电话系统12A可以将由传声器阵列22采集的各种音频信号处理成一维的、或处理成具有二维多元性、或处理成具有三维多元性,这取决于传声器阵列22中的哪些单独传声器在给定时间检测到了具有阈值声能(例如,声音强度或响度)的声音输入。
如以下更详细讨论的,显示设备18A可以绕X轴(俯仰)、Y轴(左右摇摆)或Z轴(侧倾)中的一个或多个转动,从而改变关于由传声器阵列22中的各传声器采集的音频信号的方向性(或方向多元化)。在一些示例中,显示设备18A也可以平移移动,例如通过沿使平移移动实现的侧板、和/或顶板和底板滑动而平移移动。如本文所使用的,显示设备18A的转动和/或平移移动是指,显示设备相对于视听电话系统12A中的其他静止组件(例如,底座34)而方位变化和/或位置变化。视听电话系统12A中的DSP逻辑或其他音频处理硬件可以对音频数据进行编码或转码,并将经编码/转码的数据进行分组,以用于通过分组交换网络进行传输,例如通过通信信道16进行传输。
如图1A所示,视听电话系统12A还包括扬声器阵列26。在各种示例中,扬声器阵列26中的一个或多个扬声器可以被包括在视听电话系统12A的其他组件的内部。在图1A的特定示例中,扬声器阵列26中的所有扬声器在物理上被并入视听电话系统12A的另一组件(在这种情况下,为底座34)中。扬声器阵列26可以包括各种类型的扬声器,例如通常被并入计算设备中的压电扬声器。在根据本公开各方面的各种示例中,扬声器阵列26可以包括锥形驱动器和无源辐射器。在包括多个无源辐射器的一些示例中,这些无源辐射器可以彼此水平相对、且彼此反相运动,以帮助抑制/消除由于这些无源辐射器输出的低频而引起的振动。
在一些示例中,扬声器阵列26可以包括具有相同音频输出能力的多个单独扬声器,例如,一对全音域(full-range)扬声器、或全音域扬声器阵列。在其他示例中,扬声器阵列26可以包括具有不同音频输出能力的至少两个扬声器,例如亚低音扬声器、低音扬声器、中音扬声器或高音扬声器中的两个或更多个。扬声器阵列26可以包含具有不同类型的连接能力的扬声器,例如有线扬声器、或无线扬声器、或有线扬声器和无线扬声器这两者。
视听电话系统12A可以包括驱动逻辑,该驱动逻辑被配置为驱动扬声器阵列26的多个扬声器中的一个或多个扬声器将音频数据呈现给参与者30A和30B。视听电话系统12A中的驱动逻辑可以向扬声器阵列26的多个单独扬声器中的一个或多个单独扬声器提供扬声器馈送,并且这些接收扬声器可以呈现馈送中提供的音频数据,作为可听的声音数据。视听电话系统12A中的驱动逻辑可以基于几何构造(扬声器阵列26中的多个扬声器根据该几何构造而被设置),在多通道基础(multi-channel basis)上配置扬声器馈送。
以这种方式,视听电话系统12A可以利用传声器阵列22和扬声器阵列26,来协助参与者30A和30B通过通信信道16参与图1所示的视频会议会话。视听电话系统12A使用传声器阵列22使参与者30A和30B能够提供音频数据(说出的话语/声音、背景音乐/音频等),以伴随由图像采集系统20A采集的视频馈送。相应地,视听电话系统12A使用扬声器阵列26来呈现伴随显示内容24中所示的动态/静态图像数据的音频数据。
图1B为描绘了图1A中的视听电话系统12A及其周边环境的进一步细节的图示。在图1B中参与者30A和30B关于彼此的相对位置、以及关于视听电话系统12A的相对位置与图1A相比是不同的。根据本公开各方面,视听电话系统12A被配置为对音频输入数据和音频输出数据进行操作以适应这些位置变化,如以下更详细描述的。
尽管关于图1A和图1B所示出的设计对本公开的配置进行了描述,但本公开的配置也适用于视听电话系统12的其它设计,例如,本公开的配置可以用于智能扬声器类型的应用、或任何其他设备,在该其他设备中,该设备的包括或固定附接到传声器阵列的部分相对于相应扬声器或扬声器阵列是可移动的。例如,本公开的配置可以适用于笔记本电脑设计,在该笔记本电脑设计中,一个或多个扬声器经由将显示器连接到键盘的铰合部附近的槽输出音频数据,并且在该笔记本电脑设计中,传声器位于该显示器的显示部分的上方。
传声器阵列22采集音频输入数据14,在图1B所示的特定用例场景中,该音频输入数据包括由参与者30A提供的语音输入。由传声器阵列22采集的一种或多种环境声音可能会增强音频输入数据14。例如,传声器阵列22可能会检测到由参与者30B发出的语音或运动相关的声音(脚步声等)、和/或由视听电话系统12A的其他组件发出的声音、和/或出现在传声器阵列22的可听范围内的其他背景噪声。在一些非限制性示例中,传声器阵列22可以表示四-传声器阵列,四个单独传声器中的至少三个单独传声器被固定安装到显示设备18A的顶边或顶板。在一个这样的示例中,可以将传声器阵列22中的四个单独传声器排列成截棱锥阵列的常规形状。
扬声器阵列26在视听电话系统12A的物理位置处呈现音频输出数据28。音频输出数据28可以包括由视听电话系统12A通过通信信道16接收的音频数据(或者在一些情况下,音频输出数据完全由该音频数据组成),作为与视听电话系统12B进行的活动的视频会议会话的一部分。例如,音频输出数据28可以包括伴随视频馈送的音频数据,该视频馈送被呈现用于以显示内容24的形式显示。在一些实例中,即使视频馈送被中断而导致显示内容24显示冻结帧或默认图片,视听电话系统12A也可以继续驱动扬声器阵列26来呈现音频输出数据28,从而保持当前活动的视频会议会话的音频馈送。
如图1B所示,显示装置18A通过支架32安装到底座34上,从而为视听电话系统12A提供直立显示能力。将理解的是,视听电话系统12A的支架32、底座34和其他组件没有按照根据本公开的所有可能用例场景的比例来绘制,并且图1B所示的屏幕高宽比仅表示与本公开的配置相配的许多不同的屏幕高宽比中的一种。在另一示例中,支架32和底座34可以牢固地集成为一体,并且其在宽度上/周长上几乎没有或没有变化。
支架32可以配备有安装硬件(例如,在支架32与显示设备18A的接合处和/或在支架32与底座34的接合处),该安装硬件具有关于活动能力的一个或多个自由度。这些自由度可以包括绕X轴的转动能力(提供俯仰或“倾斜”动作)、绕Y轴的转动能力(提供左右摇摆或“旋转”能力)和/或绕Z轴的转动能力(提供侧倾能力),和/或仅X轴、Y轴和/或Z轴的平移能力。
参与者30A和30B可以使用由上述安装件提供的自由度,来调整显示设备18A的位置和方位。例如,参与者30A或30B中的一位参与者可以以显示内容24对他/她可见的方式,对显示设备18A进行临时定位。在图1B所示的特定时间实例中,显示设备18A被定位使参与者30A以方便的方式来观看显示内容24。在其他示例中,显示设备18A的定位可以是电动的,且显示设备的定位可以由视听电话系统12A基于一个或多个参数来控制,例如以将显示设备18A和传声器阵列22定位成朝向参与者30A和30B中当前说话的参与者。
根据本公开各方面,视听电话系统12A被配置为,响应于显示设备18A的位置/方位,在通过通信信道16传输音频输入数据14之前对该音频输入数据进行修改,和/或驱动扬声器阵列26以修改后的方式来呈现音频输出数据28。根据本公开的一些示例,视听电话系统12中的DSP逻辑可以基于显示设备18A的位置/方位,对音频输入数据14中各单独音频信号的采集、选择或处理中的一种或多种进行修改。例如,视听电话系统12A中的DSP逻辑可以以完全或部分地补偿由支架32的安装件的一个或多个转动角度所引起的相对于水平线的角偏移的方式,来对音频输入数据14进行修改。
在传声器阵列22未被配置为采集声源处的方向信息的示例中,视听电话系统12A中的DSP逻辑可以被配置为实现具有朝向声源(在本实例中,为参与者30A)的第一方向的虚拟定向传声器。由于传声器阵列22被物理附接到显示设备18A,因此显示设备18A相对于参与者30A位置处声源的相对位置/方位的任何变化也可以使传声器阵列22的多个单独传声器中的一个或多个单独传声器相对于参与者30A位置处声源的相对位置/方位发生变化。
如果视听电话系统12A中的DSP逻辑检测到显示设备18A的相对方位/位置发生变化(例如,基于从视听电话系统12A中的检测硬件直接或间接接收的信息),则DSP逻辑可以调整虚拟定向传声器的方向,以补偿检测到的显示设备18A的转动角度的变化。在一些示例中,DSP逻辑可以使用描述显示设备18A的转动角度的数据,来约束虚拟传声器被定向到的搜索空间(例如,在参与者30A的方向上的搜索空间)。例如,DSP逻辑可以将搜索空间约束在关于水平面的垂直角的范围,其中,该垂直角的范围基于参与者30A的头部的预期位置,并因此基于可能产生语音的预期位置。
在其他示例中,DSP逻辑可以舍弃或忽略从传声器阵列22中的一些单独传声器接收到的信号,那些单独传声器是被定位成使得它们检测主要来源于参与者30A的物理位置以外的声源的音频数据的单独传声器。例如,DSP逻辑可以舍弃或忽略从传声器阵列22中的一些单独传声器接收到的信号,那些单独传声器对从参与者30A的位置发出的仅作为环境声音的声音进行检测、或完全不对从参与者30A的位置发出的声音进行检测。
根据本公开各配置中的一些配置,视听电话系统12A中的驱动逻辑可以基于显示设备18A关于视听电话系统12A中的底座34或另一静止组件的相对方位(例如,基于显示设备关于视听电话系统中的底座或另一静止组件的转动角),调整提供给扬声器阵列26的驱动信号。再有,在该示例中,扬声器阵列26被物理固定到底座34上(或被装在该底座内部)。对于显示设备18A的至少一些位置和/或至少一些方位,显示设备18A可能至少部分地阻挡了声波从扬声器阵列26到收听者(在这种情况下,为参与者30A和潜在的参与者30B)的直接路径。
就这一点而言,显示设备18A(例如,显示设备18A的背面)可以充当反射表面、分散(dispersive)表面和/或吸收表面,该反射表面、分散表面和/或吸收表面与扬声器阵列26输出的声音相互作用,从而影响参与者30A和/或30B听到的声音。随着显示设备18A的方位发生变化,显示设备18A与扬声器阵列26输出的声音之间的相互作用可能会变化。视听电话系统12A中的驱动逻辑可以对位于扬声器阵列26和收听者(在这种情况下,为参与者30A和潜在的参与者30B)之间的表面(例如,显示设备18A的表面)的改化进行补偿。
例如,视听电话系统12A中的驱动逻辑可以对由于显示设备18A的反射背面、分散背面和/或吸收背面处于扬声器阵列26与一个或多个收听者之间而出现的音频质量变化(例如,频率变化、幅度变化和/或相位变化)进行补偿。在一些用例中,附加地或替代地,视听电话系统12A中的驱动逻辑可以调整驱动信号,使得扬声器阵列26以针对参与者30A(以及在此特定示例中,同样针对参与者30B)的方式来呈现音频输出数据28。
例如,视听电话系统12A中的驱动逻辑可以将显示设备18A的相对位置/方位(例如,该显示设备关于底座34的相对位置/方位)映射到均衡参数集,并且驱动扬声器阵列26根据映射到显示设备18A的相对位置/方位的该均衡参数集来呈现音频输出数据28。为了将该均衡参数集映射到显示设备18A的相对位置/方位角,视听电话系统12A中的驱动逻辑可以从可用均衡参数的超集中选择该参数集。
继而,扬声器阵列26(或该扬声器阵列中的扬声器子集)可以根据均衡参数集呈现音频输出数据28。在一些示例中,为了将显示设备18A的转动角度映射到合适的均衡参数集,视听电话系统12A中的驱动逻辑使用了查找表,该查找表提供了不同转动角度到相应的(预定的)多个均衡参数集的一对一或多对一映射。
在其他示例中,为了将显示设备18A的转动角度映射到合适的均衡参数集,视听电话系统12A中的驱动逻辑应用了有限元解法(finite element solution)或特定函数,该有限元解法或特定函数为显示设备18A的给定转动角度确定均衡参数集。在其他示例中,仍然为了将显示设备18A的转动角度映射到合适的均衡参数集,视听电话系统12A中的驱动逻辑可以应用人工智能(artificial intelligence,AI)或机器学习(machine learning,ML)模型,该人工智能或机器学习模型使用多个转动角度到相应多个均衡参数集的映射而被训练,以预测适合显示设备18A的当前转动角度的均衡参数集。
以这种方式,视听电话系统12A中的驱动逻辑可以驱动扬声器阵列26以根据显示设备18A的当前位置和方位而自定义的方式来呈现音频输出数据28。在一些实例中,视频会议设备12A中的驱动逻辑可以补偿由扬声器阵列26外部的因素产生的影响,例如,由显示设备18A关于底座34的重新定位或转动引起的对多个独立扬声器中的一个或多个的影响。
根据本公开的一些示例,在音频输入数据14作为活动的视频会议会话的一部分而通过通信信道16传输之前,视听电话系统12A中的DSP逻辑可以对该音频输入数据的采集参数和/或预处理参数进行编辑。例如,视听电话系统12A中的DSP逻辑可以对音频输入数据14进行操作,以补偿传声器阵列22到水平面的角度偏移(例如,如由传声器阵列22的方位角和/或顶垂线所示的角度偏移)。
在图1A和图1B所示的示例中,视听电话系统12A中的DSP逻辑可以基于显示设备18A的方位(例如,基于传声器阵列22所固定附接到的显示设备18A关于支架32和/或底座34的转动角度),确定传声器阵列22的方位角和/或顶垂线(统称为“水平坐标角”)。也就是说,视频会议设备12A中的DSP逻辑可以利用所示设计中的、传声器阵列22到显示设备18A的物理附接,从已跟踪的和已知的、显示设备18A的方位信息中推测传声器阵列22的水平坐标角。
在视听电话系统12A中的DSP逻辑不直接接收来自传声器阵列22或相关联硬件的方向信息的示例中,DSP逻辑可以被配置为生成具有特定方向性(例如,面向参与者30A的当前位置处的声源)的虚拟定向传声器。例如,视频视听电话设备12A中的DSP逻辑可以将与音频输入数据14有关的搜索空间仅约束到一个或多个单独传声器,该一个或多个单独传声器最适合于采集来自声源而无环境声音的输入数据(零能量环境声音数据)、或来自声源但具有极小环境声音的输入数据(低能量环境声音数据或可忽略能量环境声音数据)。
基于在图1A和图1B所示出的设备设计中传声器阵列22被附接至显示设备18A,视听电话系统12A中的DSP逻辑可以基于显示设备18A的转动角度和/或平移位置,估计或确定传声器阵列22的相对位置或传声器阵列22中的各单独传声器的相对位置。视听电话系统12A中的DSP逻辑可以响应于检测到显示设备18A的方位的任何变化或转动角度的任何变化,对与传声器阵列22有关的搜索空间约束进行动态地更新。
也就是说,视听电话系统12A中的DSP逻辑可以基于检测到的显示设备18A的方位变化,实时地(例如,没有滞后时间)或大体上实时地(例如,具有很短或可忽略的滞后时间)修改虚拟定向传声器的方向。通过动态地修改虚拟定向传声器的方向以跟踪关于显示设备18A的转动角度变化,在音频输入数据14作为活动的视频会议会话的一部分而通过通信信道16传输之前,视听电话系统12A中的DSP逻辑可以对与调节或预处理该音频输入数据有关的、显示设备18A的一个或多个转动角度的变化进行补偿。
根据本公开的一些示例,视听电话系统12A可以包含声学回声消除逻辑。该声学回声消除逻辑可以被实现为视听电话系统12A中的其他处理电路的一部分,或者被实现为实现对上述音频输入数据14进行操作的DSP逻辑的一部分,或者可以表示视听电话系统12A中的一个或多个专用硬件单元或一个或多个专用固件单元。
视听电话系统12A中的声学回声消除逻辑引导自适应滤波算法来搜索多个信号之间的相干性。视听电话系统12A中的声学回声消除逻辑检测或预测音频输出数据28可能对音频输入数据14产生的一个或多个影响。在音频输入数据14作为活动的视频会议会话的一部分而通过通信信道传输之前,视听电话系统12A中的声学回声消除逻辑基于这些检测到或预测出的影响,对该音频输入数据的采集和/或预处理进行操作。
再有,根据图1A和图1B中所示出的设备设计,扬声器阵列26要么被装在底座34中,要么以其他方式被物理(且靠近地)耦合至底座。基于显示设备18A(该显示设备大体上包含传声器阵列22、或者传声器阵列22被固定附接到该显示设备)与底座34之间的距离和相对定位,音频输出数据28对音频输入数据14的回声影响/反馈影响可能会变化。就这一点而言,显示设备18A的位置和方位(例如,转动角度)影响扬声器阵列26与传声器阵列22之间的直接路径和回声路径。基于视听电话系统12A的这些设计特性,回声消除逻辑可以基于显示设备18A的转动角度,启动、调整或重新调整自适应滤波器。该自适应滤波器可以在数字逻辑中被实现,且被配置为检测多个音频信号之间的相干性,并基于任何检测到的相干性来减少或消除冗余。
视听电话系统12A中的声学回声消除逻辑还可以动态地实现对自适应滤波器的改变,例如,响应于(在相对短的时限内或大体上立即)检测到显示设备18A的位置或方位的变化,动态地实现对自适应滤波器的改变。也就是说,基于图1A和图1B所示的视听电话系统12A的设备设计,声学回声消除逻辑可以基于显示设备18A的转动角度的变化,预测音频信号相干性。
因为显示设备18A的转动角度影响扬声器阵列26中的每个单独扬声器与传声器阵列22中的每个单独传声器之间的距离和相对角度信息,所以基于扬声器阵列26与传声器阵列22之间的当前相对定位,声学回声消除逻辑可以将显示设备18A的一个或多个转动角度映射到回声消除参数集,该回声消除参数集补偿音频输出数据28可能导致的关于音频输入数据14的任何反馈。只要显示设备18A以特定的检测方式被静态定位/定向,声学回声消除逻辑就会应用对应的回声消除参数集来配置自适应滤波器。
给定的回声消除参数集可以确定,自适应滤波器如何约束(如果有的话)搜索空间以识别相干时间(coherence timing)、与音频信号相似性有关的相干阈值等。尽管本文中作为示例将视听电话系统12A描述为实现声学回声消除,但将理解的是,该视听电话系统可以以其它方式(例如,通过实现声学回声抑制逻辑),来补偿音频输出数据28关于音频输入数据14的反馈影响或回环影响。在一些示例中,视听电话系统12A可以实现与音频输入数据14有关的其它改进技术,例如用于消除持续噪声的主动降噪(active noisecancellation,ANC),这些持续噪声例如为源自环境设备(空调器等)的那些噪声、或源自视听电话系统12A自身的其它组件(CPU冷却风扇等)的那些噪声。
以上将本公开的各种技术描述为,响应于检测到关于显示设备18A的位置数据和/或方位数据(或位置数据的变化和/或方位数据的变化)而被执行。在各种示例中,视听电话系统12A可以配备有各种组件和/或传感器硬件,这些组件和/或传感器硬件用于在显示设备18A与支架32的接口处的安装硬件的辅助下,确定显示设备18A关于X轴、Y轴或Z轴中的一个或多个轴的方位(以及该方位的变化)。传感器硬件可以包括加速度计、位置编码器、陀螺仪、运动传感器等中的一个或多个(并且可以通过对传声器阵列22和/或图像采集系统20A进行额外再利用来增加该传感器硬件)。视听电话系统12A中的一个或多个组件被配置为对由传感器硬件生成的传感器数据、以及从传感器硬件接收的传感器数据进行分析,以确定显示设备18A的当前方位。
图2为示出了电话系统的示例的框图,该电话系统实现了本公开的多种基于显示位置的音频数据操作技术中的一种或多种。尽管许多不同的设备可以被配置为执行本文所描述的技术,但是图2是参考图1A和图1B中的视听电话系统12A的非限制性示例来进行描述的。在图2所示的示例中,视听电话系统12A包括存储器42、以及通信连接至存储器42的处理电路28。在一些示例中,可以将存储器42和处理电路44并置以形成集成电路的一部分,或者可以将该存储器和该处理电路集成到单个硬件单元中,例如片上系统(system on a chip,SoC)中。
处理电路44可以包括以下中的一个或多个、为以下中的一个或多个、或者为以下中的一个或多个中的一部分:多核处理器、控制器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)、处理电路(例如,固定功能电路、可编程电路、或固定功能电路与可编程电路的任意组合)、或等效的离散逻辑电路或集成逻辑电路。存储器42可以包括用于存储数据和可执行软件指令的、任何形式的存储器,例如,随机存取存储器(random-access memory,RAM)、只读存储器(read only memory,ROM)、可编程只读存储器(programmable read only memory,PROM)、可擦除可编程只读存储器(erasable programmable read only memory,EPROM)、电子可擦除可编程只读存储器(electronically erasable programmable read only memory,EEPROM)、和闪存。
存储器42和处理电路44提供了用于执行操作系统36的计算平台。继而,操作系统36提供了用于执行安装在视听电话系统12A上的一个或多个软件组件的多任务操作环境。由操作系统36提供的多任务操作环境所支持的软件组件表示可执行软件指令,这些可执行软件指令可以采用一个或多个软件应用程序、一个或多个软件包、一个或多个软件库、一个或多个硬件驱动程序和/或一个或多个应用程序接口(Application Program Interface,API)的形式。例如,安装在视听电话系统12A上的软件组件可以在显示设备18A上显示配置菜单以获得配置信息。
处理电路44可以经由输入/输出(input/output,I/O)接口40连接至外部系统和设备,例如连接至显示器12A、图像采集系统20A、传声器阵列22和扬声器阵列26等。I/O接口40还可以包含网络接口硬件,例如一个或多个用于经由通信信道16通信的有线和/或无线网络接口控制器(network interface controller,NIC),该通信信道可表示分组交换网络。
电话应用程序38实现了,能够使用作为终端用户硬件的视听电话系统12A通过通信信道16参与通信会话的功能。电话应用程序38包括提供和呈现两个或多个参与者30之间的通信会话的功能。例如,电话应用程序38接收来自视听电话系统12B的音频数据和视频数据的入站流,并经由I/O接口40、通过扬声器阵列26向参与者30A呈现音频输出数据28以及通过显示设备18A向该参与者呈现对应的视频输出数据。类似地,电话应用程序38使用传声器阵列采集音频输入数据14、且使用图像采集系统20A采集图像数据,并将由该电话应用程序处理的音频数据/视频数据传输至视听电话系统12B,以呈现给参与者30C。例如,电话应用程序38可以包括用于实现视频会议会话的一个或多个软件包、一个或多个软件库、一个或多个硬件驱动程序、和/或一个或多个应用程序接口(API)。
电话应用程序38可以对经由I/O接口40接收的来自图像采集系统20A的图像数据、以及接收的来自传声器阵列22的音频输入数据14进行处理,并且可以将处理后的视频馈送和处理后的音频馈送通过通信信道16转发至其他终端用户硬件设备,这些其他终端用户硬件设备连接至正在进行的会议会话(在图1A的示例中,其为视频会议会话)。此外,视频会议应用程序38可以对通过通信信道16接收的、作为视频会议会话的一部分的视频馈送和音频馈送进行处理,并且可以使视听电话系统12A中的其它组件能够使用作为中间中继设备的I/O接口40,通过显示设备18A输出处理后的视频数据、以及通过扬声器阵列26输出处理后的音频数据(作为音频输出数据28)。
视听电话系统12A可以包括呈现引擎(rendering engine),该呈现引擎被配置为使用通过通信信道16接收并由电话应用程序38处理过的视频数据,构建待由显示设备18A输出的可视化内容。在一些示例中,呈现引擎构建了包括多个视频馈送的内容,如在显示内容24的画中画实施例的情况下。在图1A和图1B的示例中,呈现引擎构建了包括视频流的显示内容24,该视频流反映了通过通信信道16接收的来自视频呈现设备18B的视频数据。在其他示例中,呈现引擎可以叠加第二视频流的数据(以视频馈通的形式),该第二视频流的数据反映了在本地接收的来自图像采集系统20A的视频数据。在一些示例中,呈现引擎可以构建包括体现三个或更多个视频馈送的部分的显示内容24,该三个或更多个视频馈送例如为两个或更多个远程参与者的单独视频馈送。
如图2所示,视听电话系统12A包括传感器硬件58。传感器硬件58可以包含一种或多种类型的传感器,例如,加速度计、位置编码器、陀螺仪和运动传感器等中的一种或多种。视听电话系统12A中的各组件可以使用由传感器硬件58生成的数据,确定显示设备18A的当前方位(以及从先前位置/先前方位的变化)。由于传声器阵列22被固定附接到显示设备18A,因此视听电话系统12A中的各组件可以使用来自传感器硬件58的数据,确定传声器阵列22的当前方位。传感器硬件58除了监视显示设备18A的位置和方位以外,还可以执行其他与检测相关的功能。
在图2所示的示例中,视听电话系统12A包括驱动逻辑46、DSP逻辑48和声学回声消除逻辑50。可以在硬件中实现驱动逻辑46、DSP逻辑48或声学回声消除逻辑50中的任何一个,或者可以将驱动逻辑、DSP逻辑或声学回声消除逻辑中的任何一个实现为执行软件的硬件。可以在一集成电路中实现驱动逻辑46、DSP逻辑48或声学回声消除逻辑50中的一个或多个(例如,驱动逻辑、DSP逻辑或声学回声消除逻辑中的一个或多个可以通过与处理电路44和存储器42并置而在该集成电路中被实现),或者,驱动逻辑、DSP逻辑或声学回声消除逻辑中的一个或多个可以通过与不同的存储器和不同的处理硬件并置而在该另一集成电路中被实现。
驱动逻辑46可以基于显示设备18A的方位(如使用从传感器硬件58获得的数据确定的该显示设备的方位),对经由I/O接口40提供给扬声器阵列26的驱动信号进行修改。例如,驱动逻辑46可以使用显示设备18A的转动角度到可从均衡参数52中获得的特定参数集的映射。均衡参数52可以包括幅度(例如,作为频率的函数所呈现的幅度)、高通滤波器、低通滤波器、陷波滤波器、一个或多个滤波器的品质因子(Q factor)、滤波器幅度、相位等中的一项或多项。
继而,驱动逻辑46可以根据参数集驱动扬声器阵列26,该参数集是基于显示设备18A关于视听电话系统12中的其他静止组件(例如底座34)的当前相对方位/当前相对位置的映射,从均衡参数52中选择的。以这种方式,驱动逻辑46可以使用均衡参数52驱动扬声器阵列26,使得以与显示设备18A的当前位置和当前方位有关的自定义方式对音频输出数据28进行呈现。
在音频输入数据14作为活动的视频会议会话的一部分而通过通信信道16传输之前,DSP逻辑48可以从音频采集参数54中选择参数集,以自定义该音频输入数据的采集参数和/或预处理。尽管在本文中被称为“采集”参数,但将理解的是,音频采集参数54也可以包括以下数据:DSP逻辑48可以使用、以在与活动会议会话(例如,如图1A的示例所示的视频会议会话)有关的音频输入数据14通过通信信道16传输之前、对该音频输入数据的预处理进行配置的数据。例如,DSP逻辑48可以从音频采集参数54中选择一参数集,该参数集在被应用时,补偿传声器阵列22的水平坐标角,如由显示设备18A的方位(如使用从传感器硬件58接收的数据检测到的该显示设备的方位)所指示的该传声器阵列的水平坐标角。
在各种示例中,DSP逻辑48可以被配置为,基于从音频采集参数54中选择的参数集,生成具有特定方向性的虚拟定向传声器。DSP逻辑48可以基于显示设备18A的转动角度(如使用从传感器硬件58获得的数据而检测到的该显示设备的转动角度),来推测传声器阵列22中的各单独传声器的相对位置。在各种示例中,DSP逻辑48可以响应于传感器硬件58指示显示设备18A(在一些示例中,传声器阵列22被固定附接到该显示设备)的位置的任何变化/方位的任何变化、或转动角度的任何变化,对从音频采集参数54中选择的参数集进行动态地更新。
声学回声消除逻辑50引导自适应滤波算法对经由I/O接口接收的来自传声器阵列22的多个信号之间的相干性进行搜索。声学回声消除逻辑对音频输出数据28可能对音频输入数据14产生的一种或多种影响进行检测或预测。基于这些检测到或预测到的影响,声学回声消除逻辑50从回声消除参数56中选择参数集,并使用选择出的参数集针对当前回声检测/预测信息配置自适应滤波器。声学回声消除逻辑50还可以动态地重新调整该自适应滤波器,例如,声学回声消除逻辑可以响应于传感器硬件58提供指示显示设备18A的位置变化或方位变化的数据,动态地重新调整该自适应滤波器。
声学回声消除逻辑50可以将显示设备18A的一些或所有可能的转动角,映射到包括在多个回声消除参数56中的相应的参数集。每个参数集可以补偿在显示设备18A的给定转动角(如使用传感器硬件58检测到的转动角)处、音频输出数据28引起的针对音频输入数据14的反馈或干扰。声学回声消除逻辑50可以应用给定的回声消除参数集来配置自适应滤波器以约束搜索空间以用于识别相干时间、用于与音频信号相似性有关的相干阈值等。
在一些示例中,均衡参数52、音频采集参数54或回声消除参数56中的一个或多个可以在本地存储在视听电话系统12A处。在这些示例中,视听电话系统12A可以包括一个或多个存储设备,该一个或多个存储设备被配置为在运行期间存储视听电话系统12A内的信息。在一些示例中,将视听电话系统12A中的一个或多个存储设备描述为计算机可读存储介质和/或一个或多个计算机可读存储设备,例如,非暂态(non-transitory)计算机可读存储介质以及各种计算机可读存储设备。
视听电话系统12A中的一个或多个存储设备可以被配置为存储比易失性存储器更大量的信息,并且还可以被配置用于信息的长期存储。在一些示例中,视听电话系统12A中的一个或多个存储设备包括非易失性存储元件,例如,固态驱动器(solid state drive,SSD)、磁硬盘、光盘、软盘、闪存、或者电子可编程存储器(electrically programmablememory,EPROM)的形式或电子可擦除可编程存储器(EEPROM)的形式。视听电话系统12A还可以包括接收、访问和写入各种类型的可移动非易失性存储设备(例如,USB闪存驱动器和SD卡等)的能力。
在一些示例中,均衡参数52、音频采集参数54或回声消除参数56中的一个或多个可以存储在外部(例如,远程)设备处,该外部设备例如为视听电话系统12A经由I/O接口40的网络接口卡硬件而通信耦合至的真实或虚拟服务器。在这些示例中,驱动逻辑46、DSP逻辑48或声学回声消除逻辑50中的一个或多个可以根据需要,经由I/O接口40的网络接口硬件使用分组交换网络访问和下载参数信息。该真实或虚拟服务器可以被托管在数据中心、服务器场、服务器集群或其他高存储容量设备中。
图3为示出了根据本公开各方面的基于显示位置的音频呈现过程的示例的流程图,该视听电话系统12A可以执行该基于显示位置的音频呈现过程。视听电话系统12A中的驱动逻辑46和/或其他组件可以执行过程60以优化信号处理,使得通过通信信道16接收的作为活动会议会话(例如,带有伴随音频的视频会议会话,如图1A的示例中的视频会议会话)的一部分的音频数据以增强的呈现特性呈现给参与者30A和/或参与者30B。
例如,过程60可以使驱动逻辑46能够修改音频输出数据28,例如,使驱动逻辑通过放大扬声器阵列26中的某些扬声器的输出、抑制扬声器阵列26中的其他扬声器的输出、从而将音频输出28导向如根据显示设备18A的方位确定的最佳方向、或者以一种或多种其他方式,来修改该音频输出数据。在一些示例中,驱动逻辑46可以补偿对音频输出数据28的遮挡,例如,通过补偿由于显示设备18A的反射背面、分散背面和/或吸收背面被定位在扬声器阵列26与一个或多个收听者之间而发生的阻挡,来补偿对音频输出数据的阻挡。
过程60可以在I/O接口40通过通信信道40接收到视频会议会话的音频数据(62)时开始。尽管以会议会话的音频数据为例进行了描述,但将理解的是,过程60可以应用于待由扬声器阵列26呈现的、作为音频输出数据28的一部分的任何音频数据(例如,使用视听电话系统12播放的音乐数据或播客数据等),同时对显示设备18A的存在和位置进行补偿。本文中,从视听电话系统12A的视角来看,所接收到的作为活动的视频会议会话的一部分的音频数据也被称为“下行链路信号”。驱动逻辑46可以使用从传感器硬件58接收的数据,检测显示设备18A的方位(64)。例如,传感器硬件58中的加速度计无论依据静止状态(保持在上一次检测到的位置和方位)还是依据运动状态(从上一次检测到的位置-方位组合改变方位),均可以提供指示显示设备18A相对于视听电话系统12A中的静止组件(例如,底座34)的相对方位的数据。
驱动逻辑46可以基于如根据从传感器硬件58接收的数据而确定的显示设备18A的方位,从多个均衡参数52中选择均衡参数集(66)。在各种示例中,驱动逻辑46可以使用查找表、有限元解法、特定函数、利用均衡参数集到位置/方位的映射而训练的AI模型、或利用均衡参数集到位置/方位的映射而训练的ML模型中的一种或多种,从多个均衡参数52中选择与最近检测到的显示设备18A的位置-方位组合对应的均衡参数集。
驱动逻辑46可以基于所选择的均衡参数集,驱动扬声器阵列26(68)。例如,驱动逻辑46可以生成驱动信号,这些驱动信号对下行链路信号进行修改,以优化来自扬声器阵列26中的一个或多个扬声器的频谱响应、电平响应和方向响应。扬声器阵列26可以基于驱动信号,呈现音频输出数据28(72),这些驱动信号是从驱动逻辑26接收、且基于所选择的均衡参数集生成的。这些驱动信号可以补偿各种影响(例如,遮挡)或者可以使扬声器阵列26中的不同扬声器子集通电,这取决于显示设备18A的位置和方位。
图4为示出了根据本公开各方面的基于显示位置的音频采集过程的示例的流程图,该视听电话系统12A可以执行该基于显示位置的音频采集过程。视听电话系统12A中的DSP逻辑48和/或其它组件可以执行过程70以优化信号处理,使得使用I/O接口40通过通信信道16转发的、作为活动的视频会议会话的一部分的音频数据,以放大的相关音频信号(具有更大的声能)以及衰减的环境声音(具有很少甚至不具有声能)呈现给参与者30C。
例如,过程70可以使驱动逻辑46能够修改传声器阵列22中一个或多个单独传声器的传声器响应,以考虑从说话者(例如,参与者30A)到传声器阵列22中的各相关单独传声器的一个或多个传声器路径的变化。例如,DSP逻辑48通过应用对应的均衡滤波器来对传声器阵列22中各单独传声器的所增加的遮挡进行补偿,或者可以基于传声器阵列22的物理配置、以及如由传感器硬件58检测到的显示设备18A的位置-方位组合,从传声器阵列22中的多个单独传声器特定子集中选择音频输入信号。
过程70可以在DSP逻辑48可以使用从传感器硬件58接收的数据来检测传声器阵列22的方位(74)时开始。例如,传感器硬件58中的加速度计无论依据静止状态(保持在上一次检测到的位置和方向)还是依据运动状态(从上一次检测到的位置-方位组合改变方位),均可以提供指示显示设备18A的方位的数据。由于在图1A和图1B所示的实施方式中,传声器阵列22被固定附接到显示设备18A,因此DSP逻辑48可以基于显示设备18A的方位来确定方位。例如,DSP逻辑48可以在关于底座34的相对意义上确定显示设备18A的方位,如果使用将显示设备18A耦合到支架32的安装硬件来转动或平移显示设备18A,该底座不会随显示设备18A移动。
DSP逻辑48可以基于如根据从传感器硬件58接收的数据而确定的传声器阵列22的方位,设置一个或多个音频采集参数(76)。在各种示例中,DSP逻辑48可以使用查找表、有限元解法、特定函数、利用音频采集参数到位置/方位的映射而训练的AI模型、或利用音频采集参数到位置/方位的映射而训练的ML模型中的一个或多个,从多个音频采集参数54中选择与最近检测到的显示设备18A的位置-方位组合对应的一个或多个特定音频采集参数。
DSP逻辑48可以根据在步骤76处设置的一个或多个音频采集参数,对由传声器阵列22检测到的原始输入信号进行采集和/或预处理,以形成音频输入数据14(78)。在一些示例中,DSP逻辑48可以使用数字逻辑生成虚拟定向传声器,例如,DSP逻辑可以使用数字逻辑通过将信号搜索空间约束到仅经由传声器阵列22中的特定单独传声器接收的信号上,来生成虚拟定向传声器。在一些示例中,在通过通信信道16传输之前,DSP逻辑48可以基于一个或多个音频采集参数,对从传声器阵列接收的原始信号进行预处理,例如,DSP逻辑可以基于一个或多个音频采集参数,通过放大来自某些单独传声器的信号(例如,经由电增益或增强)、和/或通过衰减来自其他单独传声器的信号(减少或完全消除这些信号的声能),对从传声器阵列接收的原始信号进行预处理。
继而,DSP逻辑48可以使用I/O接口40的网卡硬件通过通信信道16传输音频输入数据14,作为活动的视频会议会话的一部分(82)。本文中,从视听电话系统12A的视角来看,所传输的作为视频会议会话的一部分的预处理后版本的音频输入数据也被称为“上行链路信号”。过程70示出了本公开的多个方面中的一个方面,通过该方面,视听电话系统12A集成有用于修改(潜在地优化)上行链路信道上的音频数据的传感器信息和信号处理模块、以及用于从检测信号获取信息的其它处理电路。
图5为示出了根据本公开各方面的基于显示位置的回声消除过程的示例的流程图,视听电话系统12可以执行该基于显示位置的回声消除过程。视听电话系统12A中的声学回声消除逻辑50和/或其他组件可以执行过程80,以补偿与音频输入数据14有关的回声路径干扰,使得使用I/O接口40通过通信信道16传递的作为活动视频会议会话的一部分的音频数据、以来自音频输出数据28的减少的反馈或者没有来自音频输出数据的反馈,来呈现给参与者30C。回声路径变化(例如,该变化源于传声器阵列22与扬声器阵列26之间的相对物理定位的变化和/或视听电话系统12A的周围环境的变化)可能导致与音频输入数据14有关的各种数据精度降低。声学回声消除逻辑50可以优化从传声器阵列22接收的多个音频信号的汇聚,以补偿或突出诸如双向通话、单向通话、音量水平、环境噪声条件等各种条件。
过程80可以在声学回声消除逻辑50可以使用从传感器硬件58接收的数据来检测显示设备18A的方位(84)时开始。例如,传感器硬件58中的加速度计无论依据静止状态(保持在上一次检测到的位置和方向)还是依据运动状态(从上一次检测到的位置-方位组合来改变方位),均可以提供指示显示设备18A的方位的数据。声学回声消除逻辑50可以基于如由传感器硬件58检测到的显示设备18A的位置-方位组合,确定传声器阵列22与扬声器阵列26之间的相对位置(86)。
声学回声消除逻辑50可以基于确定的传声器阵列22与扬声器阵列26之间的相对位置,配置自适应滤波器(88)。声学回声消除逻辑50可以使用基于传声器阵列22与扬声器阵列26之间的相对位置而配置的自适应滤波器,对音频输入数据14执行声学回声消除(92)。继而,I/O接口40中的网络接口硬件可以通过通信信道16传输回声消除后版本的音频输入数据14,作为活动视频会议会话的一部分(94)。
在执行过程60、过程70或过程80中的任何过程中,视听电话系统12A调用传感器硬件58来检测整个设备的各方面的物理配置,例如,视听电话系统12A中显示设备18A的倾斜度、该视听电话系统中侧板的倾斜度、或该视听电话系统的其他部分或其外围设备的倾斜度。继而,传感器硬件58直接或间接地向图2所示的多个信号处理逻辑模块中的一个或多个提供信息。传感器硬件58和各种信号处理逻辑模块使设备配置感知成为可能。继而,这些信号处理逻辑模块使用传感器信息和设备配置感知来生成信号处理,该信号处理对由视听电话系统12A接收的或源自该视听电话系统的音频数据进行优化。
在各种示例中,信号处理逻辑模块对上行链路音频数据或下行链路音频数据进行修改(例如,放大、过滤、导向特定“最佳位置”等),以提高数据精度并且(在信号裁剪的情况下)减少带宽消耗。关于图3至图5所讨论的各种技术集成了传感器信息和处理模块、该传感器信息和处理模块包括对上行链路信道上的和下行链路信道上的音频数据进行修改的信号处理、以及用于从传感器信号获取信息的其它处理逻辑。
本公开中所描述的技术可以至少部分地在硬件、软件、固件或它们的任意组合中被实现。例如,可以在一个或多个处理器内实现所描述技术的各个方面,该一个或多个处理器包括一个或多个微处理器、一个或多个DSP、一个或多个专用集成电路(ASIC)、一个或多个现场可编程门阵列(FPGA)、一个或多个处理电路(例如,固定功能电路、可编程电路或固定功能电路和可编程电路的任何组合)、或等效的离散逻辑电路或集成逻辑电路,以及这些组件的任意组合。术语“处理器”或“处理电路”通常可以指任何单独的前述逻辑电路、或与其他逻辑电路结合的任何前述逻辑电路、或任何其他等效电路。包括硬件的控制单元也可以执行本公开的多种技术中的一种或多种技术。
这样的硬件、软件和固件可以在同一设备内实现,也可以在多个单独的设备内实现,以支持本公开所描述的各种操作和功能。此外,任何所描述的单元、模块或组件可以被一起实现或者被单独实现为分立但可互相操作的逻辑设备。将不同的特征描述为多个模块或多个单元旨在突出不同的功能方面,而不一定意味着这些模块或单元必须由多个单独的硬件或软件组件实现。而是,与一个或多个模块或单元相关联的功能可以由多个单独的硬件或软件组件执行,或者集成在多个通用或单独的硬件或软件组件中。
如本文通过各种示例所描述的,本公开的技术可以包括视频通信系统,或者结合视频通信系统来实现。本公开中所描述的技术还可以体现在或编码在包含指令的计算机可读介质(例如,计算机可读存储介质)中。使嵌入在或编码在计算机可读存储介质中的指令可以使得可编程处理器或其他处理器执行该方法(例如,在这些指令被执行时)。计算机可读存储介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电子可擦除可编程只读存储器(EEPROM)、闪存、硬盘、紧凑型光盘只读储存器(CD-ROM)、软盘、磁带、磁介质、光学介质、或其他计算机可读介质。
如本文通过各种示例所描述的,本公开的技术可以包括人工现实系统(artificial reality system)、或结合人工现实系统而被实现。如所描述的,人工现实是在呈现给用户之前已经以某种方式进行了调整的现实形式,该人工现实例如可以包括,虚拟现实(VR)、增强现实(AR)、混合现实(MR)、混合现实(hybrid reality)、或它们的一些组合和/或衍生物。人工现实内容可以包括完全生成的内容或与采集到的内容(例如,真实世界的照片)相结合的生成的内容。人工现实内容可以包括视频、音频、触觉反馈或它们的一些组合,以上任何一种都可以在单通道或多通道(例如,给观看者带来三维效果的立体视频)中被呈现。
此外,在一些示例中,人工现实还可以与应用、产品、附件、服务或它们的一些组合相关联,这些应用、产品、附件、服务或它们的一些组合例如用于在人工现实中创建内容,和/或用于人工现实中(例如,在人工现实中执行动作)。提供人工现实内容的人工现实系统可以在各种平台上实现,这些平台包括连接到主控计算机系统的头戴式显示器(head-mounted display,HMD)、独立HMD、视频会议系统、移动设备或计算系统、或能够向一位或多位观看者提供人工现实内容的任何其他硬件平台。

Claims (14)

1.一种电子设备,包括:
传声器阵列,所述传声器阵列被配置为采集音频数据;
一个或多个传感器,所述一个或多个传感器被配置为检测所述传声器阵列的方位;
数字信号处理(DSP)逻辑,所述DSP逻辑被配置为基于由所述一个或多个传感器检测到的所述传声器阵列的方位,对由所述传声器阵列采集到的所述音频数据进行处理,以形成音频输入数据;以及
接口,所述接口被配置为通过通信信道传输所述音频输入数据,以使所述音频输入数据被另一电子设备输出。
2.根据权利要求1所述的电子设备,其中,为了对所述音频数据进行处理以形成所述音频输入数据,所述DSP逻辑被配置为:
基于所述传声器阵列的方位,舍弃从所述传声器阵列中的一个或多个单独传声器接收的信号;和/或
基于所述传声器阵列的方位,将搜索空间约束到从所述传声器阵列中的一个或多个单独传声器接收的信号上;和/或
使用与所述传声器阵列的方位对应的音频采集参数集,对所述音频数据进行处理。
3.根据权利要求2所述的电子设备,其中,为了确定与所述传声器阵列的方位对应的所述音频采集参数集,所述DSP逻辑被配置为:
使用查找表从多个音频采集参数集中选择与所述传声器阵列的方位对应的所述音频采集参数集;和/或
应用有限元解法,所述有限元解法确定与所述传声器阵列的方位对应的所述音频采集参数集;和/或
应用人工智能模型或机器学习模型,所述人工智能模型或所述机器学习模型利用所述传声器阵列的转动角度到多个音频采集参数集中的相应集的映射而被训练,以预测与所述传声器阵列的方位对应的所述音频采集参数集。
4.根据权利要求1至3中任一项所述的电子设备,其中:
所述电子设备包括显示设备;并且
所述传声器阵列被固定附接到所述电子设备的所述显示设备。
5.根据权利要求4所述的电子设备,其中,
所述一个或多个传感器被配置为检测所述显示设备的方位,
所述DSP逻辑被配置为基于所述显示设备的方位,确定所述传声器阵列的水平坐标角,以及
为了对所述音频数据进行处理以形成所述音频输入数据,所述DSP逻辑被配置为使用所述传声器阵列的水平坐标角,对所述音频数据进行处理。
6.根据权利要求1至5中任一项所述的电子设备,其中,为了对所述音频数据进行处理以形成所述音频输入数据,所述DSP逻辑被配置为:
基于所述传声器阵列的方位,生成与所述传声器阵列中的一个或多个单独传声器相关联的虚拟定向传声器;以及
使用从与所述虚拟定向传声器对应的所述一个或多个单独传声器接收到的信号,形成所述音频输入数据。
7.根据权利要求1至6中任一项所述的电子设备,其中,所述一个或多个传感器包括加速度计、位置编码器、陀螺仪或运动传感器中的一个或多个。
8.一种方法,包括:
由传声器阵列采集音频数据;
由一个或多个传感器检测所述传声器阵列的方位;
由数字信号处理(DSP)逻辑基于由所述一个或多个传感器检测到的所述传声器阵列的方位,对所述传声器阵列采集到的所述音频数据进行处理,以形成音频输入数据;以及
由输入/输出接口通过通信信道传输所述音频输入数据。
9.根据权利要求8所述的方法,其中,对所述音频数据进行处理以形成所述音频输入数据包括:
由所述DSP逻辑基于所述传声器阵列的方位,舍弃从所述传声器阵列中的一个或多个单独传声器接收的信号;和/或
由所述DSP逻辑基于所述传声器阵列的方位,将搜索空间约束到从所述传声器阵列中的一个或多个单独传声器接收的信号上;和/或
由所述DSP逻辑使用与所述传声器阵列的方位对应的音频采集参数集,对所述音频数据进行处理。
10.根据权利要求9所述的方法,其中,确定与所述传声器阵列的方位对应的所述音频采集参数集包括:由所述驱动逻辑应用人工智能模型或机器学习模型,所述人工智能模型或所述机器学习模型利用所述传声器阵列的转动角度到多个音频采集参数集中的相应集的映射而被训练,以预测与所述传声器阵列的方位对应的所述音频采集参数集。
11.根据权利要求9所述的方法,其中,确定与所述传声器阵列的方位对应的所述音频采集参数集包括:由所述驱动逻辑使用查找表从多个音频采集参数集中选择与所述传声器阵列的方位对应的所述音频采集参数集。
12.根据权利要求9所述的方法,其中,确定与所述传声器阵列的方位对应的所述音频采集参数集包括:由所述驱动逻辑应用有限元解法,所述有限元解法确定与所述传声器阵列的方位对应的所述音频采集参数集。
13.根据权利要求8所述的方法,还包括:
由所述一个或多个传感器检测显示设备的方位,所述传声器阵列被固定附接到所述显示设备;以及
由所述DSP逻辑基于所述显示设备的方位,确定所述传声器阵列的水平坐标角,
其中,对所述音频数据进行处理以形成所述音频输入数据包括,由所述DSP逻辑使用所述传声器阵列的水平坐标角,对所述音频数据进行处理。
14.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储一个或多个程序,所述一个或多个程序被配置用于由具有传声器阵列、接口、一个或多个传感器、和扬声器阵列的电子设备中的一个或多个处理器执行,所述一个或多个程序包括多个指令,所述多个指令在被所述一个或多个处理器执行时,使得所述电子设备:
使用所述传声器阵列采集音频数据;
使用一个或多个传感器检测所述传声器阵列的方位;
基于由所述一个或多个传感器检测到的所述传声器阵列的方位,对由所述传声器阵列采集到的所述音频数据进行处理,以形成音频输入数据;以及
经由所述接口通过通信信道传输所述音频输入数据。
CN202180039165.8A 2020-06-09 2021-05-02 基于传声器方位对音频数据进行操作的系统、设备和方法 Pending CN115699718A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/897,018 US11340861B2 (en) 2020-06-09 2020-06-09 Systems, devices, and methods of manipulating audio data based on microphone orientation
US16/897,018 2020-06-09
PCT/US2021/030382 WO2021252097A1 (en) 2020-06-09 2021-05-02 Systems, devices, and methods of manipulating audio data based on microphone orientation

Publications (1)

Publication Number Publication Date
CN115699718A true CN115699718A (zh) 2023-02-03

Family

ID=76060000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180039165.8A Pending CN115699718A (zh) 2020-06-09 2021-05-02 基于传声器方位对音频数据进行操作的系统、设备和方法

Country Status (4)

Country Link
US (2) US11340861B2 (zh)
EP (1) EP4162673A1 (zh)
CN (1) CN115699718A (zh)
WO (1) WO2021252097A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020137044A (ja) * 2019-02-25 2020-08-31 ソニーセミコンダクタソリューションズ株式会社 音声信号処理装置
US11620976B2 (en) 2020-06-09 2023-04-04 Meta Platforms Technologies, Llc Systems, devices, and methods of acoustic echo cancellation based on display orientation
US11586407B2 (en) 2020-06-09 2023-02-21 Meta Platforms Technologies, Llc Systems, devices, and methods of manipulating audio data based on display orientation
US12067230B2 (en) * 2022-03-28 2024-08-20 Google Llc Computer platform with shared user experience interface

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6035034A (en) 1996-12-20 2000-03-07 Telefonaktiebolaget L M Ericsson (Publ) Double talk and echo path change detection in a telephony system
US7542052B2 (en) * 2002-05-31 2009-06-02 Hewlett-Packard Development Company, L.P. System and method of switching viewing orientations of a display
GB2412034A (en) 2004-03-10 2005-09-14 Mitel Networks Corp Optimising speakerphone performance based on tilt angle
US20080101624A1 (en) * 2006-10-24 2008-05-01 Motorola, Inc. Speaker directionality for user interface enhancement
US20080146289A1 (en) * 2006-12-14 2008-06-19 Motorola, Inc. Automatic audio transducer adjustments based upon orientation of a mobile communication device
US9813531B2 (en) 2007-01-22 2017-11-07 Sisvel International S.A. System and method for screen orientation in a rich media environment
US8605890B2 (en) 2008-09-22 2013-12-10 Microsoft Corporation Multichannel acoustic echo cancellation
CN101998693A (zh) * 2009-08-19 2011-03-30 深圳富泰宏精密工业有限公司 移动电话
KR20110020082A (ko) * 2009-08-21 2011-03-02 엘지전자 주식회사 이동 단말기의 제어 장치 및 그 방법
US9264553B2 (en) 2011-06-11 2016-02-16 Clearone Communications, Inc. Methods and apparatuses for echo cancelation with beamforming microphone arrays
US20130121498A1 (en) 2011-11-11 2013-05-16 Qsound Labs, Inc. Noise reduction using microphone array orientation information
US9836270B2 (en) * 2011-12-22 2017-12-05 Nokia Technologies Oy Method and apparatus for handling the display and audio component based on the orientation of the display for a portable device
WO2014063755A1 (en) 2012-10-26 2014-05-01 Huawei Technologies Co., Ltd. Portable electronic device with audio rendering means and audio rendering method
US9462379B2 (en) * 2013-03-12 2016-10-04 Google Technology Holdings LLC Method and apparatus for detecting and controlling the orientation of a virtual microphone
JP7047508B2 (ja) * 2018-03-16 2022-04-05 株式会社リコー 表示装置及び通信端末
US10854186B1 (en) 2019-07-22 2020-12-01 Amazon Technologies, Inc. Processing audio data received from local devices

Also Published As

Publication number Publication date
US20210382678A1 (en) 2021-12-09
US11340861B2 (en) 2022-05-24
US20230021918A1 (en) 2023-01-26
EP4162673A1 (en) 2023-04-12
WO2021252097A1 (en) 2021-12-16

Similar Documents

Publication Publication Date Title
EP3440538B1 (en) Spatialized audio output based on predicted position data
CN115699718A (zh) 基于传声器方位对音频数据进行操作的系统、设备和方法
KR102035477B1 (ko) 카메라 선택에 기초한 오디오 처리
US11721355B2 (en) Audio bandwidth reduction
RU2759012C1 (ru) Аппаратура и способ для воспроизведения аудиосигнала для проигрывания пользователю
WO2019121864A1 (en) Enhanced audiovisual multiuser communication
US9277343B1 (en) Enhanced stereo playback with listener position tracking
US20220225050A1 (en) Head tracked spatial audio and/or video rendering
US9351073B1 (en) Enhanced stereo playback
CN111492342B (zh) 音频场景处理
US20240171623A1 (en) Devices, systems and methods for video processing
JP2020010329A (ja) 符号化された光線を用いてスピーカアレイ及びマイクロフォンアレイを誘導するシステム、方法、及びプログラム
CN115769566A (zh) 基于显示方位进行声学回声消除的系统、设备和方法
CN115299026A (zh) 基于显示器取向操纵音频数据的系统、设备和方法
JP2014175944A (ja) テレビ会議装置、テレビ会議装置の制御方法、及びプログラム
US20230254660A1 (en) Head tracking and hrtf prediction
US20230283976A1 (en) Device and rendering environment tracking
US12028178B2 (en) Conferencing session facilitation systems and methods using virtual assistant systems and artificial intelligence algorithms
WO2024027315A1 (zh) 音频处理方法、装置、电子设备、存储介质和程序产品
GB2602531A (en) Devices, systems and methods for video processing
WO2023150486A1 (en) Gesture controlled audio and/or visual rendering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination