CN112806030A - 空间音频处理 - Google Patents

空间音频处理 Download PDF

Info

Publication number
CN112806030A
CN112806030A CN201980066261.4A CN201980066261A CN112806030A CN 112806030 A CN112806030 A CN 112806030A CN 201980066261 A CN201980066261 A CN 201980066261A CN 112806030 A CN112806030 A CN 112806030A
Authority
CN
China
Prior art keywords
audio signal
spatial audio
focus
spatial
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980066261.4A
Other languages
English (en)
Other versions
CN112806030B (zh
Inventor
J·维尔卡莫
M-V·莱蒂南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN112806030A publication Critical patent/CN112806030A/zh
Application granted granted Critical
Publication of CN112806030B publication Critical patent/CN112806030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones

Abstract

根据示例性实施例,提供了一种用于处理表示音频场景的空间音频信号的方法,其中,该空间音频信号是可控制的并且与至少两个观看方向相关联,该方法包括:接收焦点方向和焦点量;通过修改音频场景来处理空间音频信号,以便根据所述焦点量至少部分地控制空间音频信号的一部分在所述焦点方向上的加重;以及输出处理后的空间音频信号,其中,修改后的音频场景至少部分地使能空间音频信号的所述一部分根据所述焦点量在所述焦点方向上的加重。

Description

空间音频处理
技术领域
本发明的示例和非限制性实施例涉及空间音频信号的处理。特别地,本发明的各种实施例涉及控制表示空间音频图像(即,包含一个或多个定向声音分量以及可能的环境声音分量的音频场景)的空间音频信号的播放。
背景技术
多视图视频或具有多个观看方向的视频使得场景的观看角度比传统视频宽得多。通常,这种视频内容提供比传统的“平板”屏幕所容纳的观看角度更宽的观看角度,并因此在播放这种视频时向用户提供一种机制:对多视图视频进行平移以便从可用的整体观看角度选择感兴趣的子部分(或区域)。因此,平移导致用户选择观看方向,该观看方向覆盖由视频内容使能的整体观看角度的子部分。多视图视频的最典型示例可能是360度视频(也被称为沉浸式视频或球形视频),其提供了围绕捕获点的所有方向的视图。
使用户能够观看多视图视频的布置的非限制性示例包括以下:
-头戴式显示器或移动设备(诸如移动电话),被布置在头戴式设备中,该头戴式设备配备有跟踪用户定向以用于选择观看方向;
-移动设备(诸如移动电话)的显示器,其中,所期望的观看方向可通过使用手势和/或手臂姿势来选择,例如通过改变移动设备的位置和/或定向;
-传统计算设备(诸如膝上型计算机或台式计算机或移动电话)的显示器,其中,所期望的观看方向可通过合适的用户接口机制来选择;
-围绕观看点的显示器布置。
在许多情况下,多视图视频被提供有与多视图视频中描绘的场景相关联的音频。相关联的音频优选地被提供为空间音频并被渲染给用户,以使得空间音频图像的空间特性遵循为多视图视频选择的观看角度,换句话说,音频场景的收听方向遵循所选择的观看方向。空间音频可以被提供为空间音频信号。空间音频也可以独立于视频内容而被提供。在这种情况下,如果所使用的音频渲染布置允许用户选择关于由空间音频信号表示的音频场景的收听定向(例如,收听方向或“观看方向”),则这可以被称为作为多视图音频。
使用合适的空间音频格式来提供空间音频信号,该空间音频格式能够传送音频场景,该音频场景包含在音频场景的特定位置处的定向声源以及音频场景的环境。就此而言,空间音频信号可以包括定义一个或多个定向声音分量的信息和定义环境声音分量的信息,其中该一个或多个定向声音分量表示在音频场景内具有某一位置(例如,关于收听点的某一到达方向和某一相对强度)的有区别的声源,该环境声音分量定义了音频场景中的环境声音。收听这样的音频场景使得收听者能够体验音频环境,就像他或她位于音频场景所表示的位置一样。音频场景也可以被称为空间音频图像。
若干空间音频格式在本领域中是已知的。在这方面,非限制性示例包括:
-全景环绕声(Ambisonic)信号(任意阶数的),包括音频信号分量,该音频信号分量提供空间中某点的声场的球面谐波分解。这些音频信号分量可以被称为球面谐波,并且它们可以被视为一组空间选择性波束信号。当前,例如在YouTube 360VR视频服务中使用了Ambisonic。Ambisonic作为空间音频格式的优势是它提供了空间音频信号的相对简单明确的表示。
-根据预定义扬声器配置(或扬声器设置)来提供环绕声的环绕扬声器信号。在各种应用中提供环绕声的扬声器配置示例包括5.1、7.1、10.2和22.2通道配置。目前,典型的电影的空间音频作为环绕扬声器信号而被传送。使用环绕扬声器作为空间音频格式的优势包括简单性和传统兼容性。
-类似于环绕扬声器信号格式的音频格式,其用于提供音频对象,而不是根据预定义扬声器配置而使用音频通道。由这种音频格式所表示的音频对象(音频信号或“通道”)可以被视为具有时变位置的音频通道。
-参数空间音频,诸如在感知上相关的频带中的双通道音频信号和相关联的空间元数据,其中该空间元数据定义了在相应的频率子带的音频的空间特性。这种空间音频表示是通过最新的音频编码方法和空间音频捕获方法来应用的。空间元数据实质上确定了应如何在接收机端对音频信号进行空间再现(例如,以不同的频率针对哪些方向)。参数空间音频的优势包括其多功能性、声音质量、以及使用低比特率对空间音频信号进行编码的能力。
空间音频信号可以通过使用包括多个麦克风的麦克风布置以捕获相应的多个音频信号并将该音频信号处理成表示音频场景的所期望的空间音频格式来获得。空间音频信号可以和与其相关联的多视图视频一起被捕获。在这方面,非限制性示例包括安装在诺基亚OZO相机、其他类型的虚拟现实(VR)相机、或手持移动设备(诸如移动电话)上的麦克风阵列。作为另一示例,空间音频信号可以基于一个或多个任意源信号例如通过在录音室中将一个或多个任意源信号处理成所期望的空间音频格式而被创建,其中所期望的空间音频格式表示具有所期望的特性(例如,关于声源的方向性和音频场景的环境)的音频场景。作为另一示例,所捕获的音频场景和人工生成的音频场景的组合可以例如通过在音频场景的期望空间位置处经由引入一个或多个(其他)定向声源来补充由麦克风阵列捕获的空间音频信号或者通过评论员音轨来提供。
在与多视图视频关联的空间音频的上下文中或在独立的多视图音频的上下文中,音频场景可以包含大量定向声源以及相对高水平的环境声音,并因此使得能够将注意力集中在音频场景的某部分上和/或有效地在音频场景中浏览的新颖的机制可以被认为是相当有用的。
发明内容
根据示例性实施例,提供了一种用于处理表示音频场景的空间音频信号的方法,其中,该空间音频信号是可控制的并且与至少两个观看方向相关联,该方法包括:接收焦点方向和焦点量;通过修改音频场景来处理空间音频信号,以便根据所述焦点量至少部分地控制空间音频信号的一部分在所述焦点方向上的加重;以及输出处理后的空间音频信号,其中,修改后的音频场景至少部分地使能空间音频信号的所述一部分根据所述焦点量在所述焦点方向上的加重。
根据另一示例性实施例,提供了一种用于处理表示音频场景的空间音频信号的装置,其中,该空间音频信号是可控制的并且与至少两个观看方向相关联,该装置被配置为:接收焦点方向和焦点量;通过修改音频场景来处理空间音频信号,以便根据所述焦点量至少部分地控制空间音频信号的一部分在所述焦点方向上的加重;以及输出处理后的空间音频信号,其中,修改后的音频场景至少部分地使能空间音频信号的所述一部分根据所述焦点量在所述焦点方向上的加重。
根据另一示例性实施例,提供了一种用于处理表示音频场景的空间音频信号的装置,其中,该空间音频信号是可控制的并且与至少两个观看方向相关联,该装置包括:用于接收焦点方向和焦点量的部件;用于通过修改音频场景来处理空间音频信号,以便根据所述焦点量至少部分地控制空间音频信号的一部分在所述焦点方向上的加重的部件;以及用于输出处理后的空间音频信号的部件,其中,修改后的音频场景至少部分地使能空间音频信号的所述一部分根据所述焦点量在所述焦点方向上的加重。
根据另一示例性实施例,提供了一种用于处理表示音频场景的空间音频信号的装置,其中,该空间音频信号是可控制的并且与至少两个观看方向相关联,该装置包括至少一个处理器以及存储有计算机程序代码的少一个存储器,该计算机程序代码在由至少一个处理器执行时使得该装置:接收焦点方向和焦点量;通过修改音频场景来处理空间音频信号,以便根据所述焦点量至少部分地控制空间音频信号的一部分在所述焦点方向上的加重;以及输出处理后的空间音频信号,其中,修改后的音频场景至少部分地使能空间音频信号的所述一部分根据所述焦点量在所述焦点方向上的加重。
根据另一示例性实施例,提供了一种用于处理表示音频场景的空间音频信号的计算机程序,其中,该空间音频信号是可控制的并且与至少两个观看方向相关联,该计算机程序包括计算机可读程序代码,其被配置为当所述程序代码在计算装置上被执行时使得至少执行根据前面的示例性实施例所述的方法。
根据示例性实施例的计算机程序可以被体现在易失性或非易失性计算机可读记录介质上,例如,作为计算机程序产品,包括在其上存储有程序代码的至少一个计算机可读非暂时性介质,该程序在由装置执行时使得该装置至少执行在前面针对根据本发明的示例性实施例的计算机程序而描述的操作。
在本专利申请中提出的本发明的示例性实施例不应被解释为对所附权利要求的适用性构成限制。动词“包括”及其派生词在本专利申请中用作开放式限制,其不排除还未叙述的特征的存在。除非另有明确说明,否则下文所描述的特征可以相互任意组合。
本发明的一些特征在所附权利要求中阐述。然而,当结合附图阅读时,从以下一些示例性实施例的描述中将最好地理解本发明的各方面、其构造和操作方法以及其附加的目的和优点。
附图说明
在附图中,通过示例而非限制的方式示出了本发明的实施例,其中:
图1示出根据示例的空间音频处理装置的一些元件的框图;
图2示出根据示例的描述用于空间音频处理的方法的流程图;
图3示出根据示例的音频焦点处理器的一些元件的框图;
图4示出根据示例的焦点提取器的一些元件的框图;
图5示出根据示例的音频再现处理器的一些元件的框图;
图6示出根据示例的空间音频处理装置的一些元件的框图;
图7示出根据示例的音频焦点处理器的一些元件的框图;
图8A示出根据示例的音频再现处理器的一些元件的框图;
图8B示出根据示例的音频再现处理器的一些元件的框图;
图9A示出根据示例的空间音频处理装置的一些元件的框图;
图9B示出根据示例的空间音频处理装置的一些元件的框图;
图10示出根据示例的音频焦点处理器的一些元件的框图;
图11A示出根据示例的空间音频处理装置的一些元件的框图;
图11B示出根据示例的空间音频处理装置的一些元件的框图;
图12示出根据示例的音频焦点确定器的一些元件的框图;
图13示出根据示例的装置的一些元件的框图。
具体实施方式
本公开涉及一种用于根据基于用户输入而定义的焦点方向(focus direction)和焦点量(focus amount),还可能根据基于用户输入而定义的再现定向(例如,收听方向),处理并输出表示音频场景的空间音频信号的技术。作为这方面的示例,可以提供一种用于处理空间音频信号的方法,其中,该空间音频信号与至少两个观看方向相关联,并且空间音频信号的再现是可控制的,至少经由焦点方向和焦点量的相应的指示,还可能经由再现定向的指示。特别地,可以为空间音频信号定义至少两个不同的观看方向,并且可以应用所指示的再现定向以选择一个或两个观看方向之一。该方法可以包括:接收焦点方向和焦点量;通过音频场景来处理空间音频信号,以便根据所接收的焦点量至少部分地控制空间音频信号的一部分在所接收的焦点方向上的加重;以及输出处理后的空间音频信号,其中,修改后的音频场景至少部分地使能空间音频信号的所述一部分根据所接收的焦点量在所接收的焦点方向上的加重。
在上述方法中,可以应用焦点方向和焦点量以加重空间音频信号的一部分,以使得经由焦点方向来定义要被加重的空间音频信号的一部分并且经由焦点量来定义加重的强度。作为示例,加重的强度可以被定义为焦点量的函数。加重的整体(或其一部分)可以涉及空间音频信号的一部分(例如,方向)。在后一种情况下,加重可以例如只涉及表示经由焦点方向而定义的音频场景的部分中的定向声源的声音分量,或者表示经由焦点方向而定义的音频场景的部分中的环境声音分量的声音分量。
作为示例,在上文概述的方法中,处理空间音频信号的方面可以包括:根据所接收的焦点量,至少增加空间音频信号的所述一部分在所接收的焦点方向上的声级。在另一示例中,在上文概述的方法中,处理空间音频信号的方面可以包括:根据所接收的焦点量,至少降低空间音频信号的所述一部分在除了所接收的焦点方向以外的方向上的声级。在又一示例中,处理空间音频信号的方面可以包括:根据所接收的焦点量,至少增加空间音频信号的所述一部分在所接收的焦点方向上的声级并且至少降低空间音频信号的所述一部分在除了所接收的焦点方向以外的方向上的声级。
替代将所公开的空间音频处理技术提供为一种如前所述的方法,可以例如将本文公开的空间音频处理技术提供为一种包括用于实现前述方法的步骤的相应部件的装置,提供为一种包括至少一个处理器以及存储有计算机程序代码的至少一个存储器的装置,其中该计算机程序代码在由至少一个处理器执行时使得该装置实现前述方法的步骤,或者提供为一种计算机程序,被配置为当所述程序代码在计算装置上被执行时使得执行前述方法的步骤。在下文中,提供了用于提供上述用于处理和输出空间音频信号的技术的多个示例。
图1示出了根据示例的空间音频处理装置100的一些组件和/或实体的框图。空间音频处理装置100包括:音频焦点确定器102,用于至少部分地根据焦点输入(focusinput),得到焦点方向和焦点强度(focus strength);音频焦点处理器104,用于根据焦点方向和焦点强度(或焦点量),基于输入音频信号,得到具有焦点声音分量的音频信号;以及音频再现处理器106,用于根据再现控制信息,基于具有焦点声音分量的音频信号,得到采用预定义的音频格式的输出音频信号,其中该再现控制信息用于控制关于在音频再现处理器106中处理具有焦点分量的空间音频信号的至少一个方面。再现控制信息可以包括再现定向(或再现方向)的指示和/或适用的扬声器配置的指示。考虑到上述用于处理空间音频信号的方法,音频焦点处理器104可以被设置为通过修改音频场景来实现处理空间音频信号以便根据所接收的焦点量至少控制空间音频信号的一部分在所接收的焦点方向上的加重的方面,而音频再现处理器106可以被设置为实现输出处理后的空间音频信号的方面,其中,修改后的音频场景至少使能空间音频信号的所述一部分根据所接收的焦点量在所接收的焦点方向上的加重。
在图1的图示中,输入音频信号、具有焦点声音分量的音频信号以及输出音频信号中的每一个被提供为采用预定义的空间音频格式的相应的空间音频信号。因此,这些信号可以分别被称为输入空间音频信号、具有焦点声音分量的空间音频信号以及输出空间音频信号。沿着前述的线路,空间音频信号通常传送音频场景,该音频场景包含在音频场景的相应的特定位置处的一个或多个定向声源以及音频场景的环境。然而,在一些情况下,空间音频场景可以包含一个或多个定向声源而没有环境,或者包含环境而没有任何定向声源。就此而言,空间音频信号包括传送一个或多个定向声音分量和/或环境声音分量的信息,其中该一个或多个定向声音分量表示在音频场景内具有某一位置(例如,关于收听点的某一到达方向和某一相对强度)的有区别的声源,该环境声音分量表示声音场景内的环境声音。应当注意,对定向声音分量和环境分量的这种划分是在概念上的划分,并且相同的信息片段(例如,空间音频信号的音频通道)可以传送表示一个或多个定向声音分量的信息和表示环境音频分量的信息两者。
通常,输入音频信号和具有焦点声音分量的音频信号以相同的预定义的空间格式来提供,而输出音频信号可以采用与应用于输入音频信号(和具有焦点声音分量的音频信号)相同的空间格式来提供,或者可以针对输出音频信号而使用不同的预定义的空间格式。基于应用于输出音频信号的播放的声音再现硬件的特性来选择输出音频信号的空间音频格式。通常,可以采用第一预定空间音频格式来提供输入音频信号,并且可以采用第二预定空间音频格式来提供输出音频信号。适合用作第一和/或第二空间音频格式的空间音频格式的非限制性示例包括Ambisonic、根据预定义扬声器配置的环绕扬声器信号、预定义的参数空间音频格式。随后在本公开中提供了在空间音频处理装置100的框架中将这些空间音频格式用作第一和/或第二空间音频格式的更详细的非限制性示例。
空间音频处理装置100通常被应用于将输入空间音频信号作为输入帧序列处理成相应的输出帧序列,每个输入(输出)帧包括输入(输出)空间音频信号的每个通道的相应的数字音频信号段,被提供为相应的采用预定义的采样频率的输入(输出)样本的时间序列。在典型示例中,空间音频处理装置100使用固定的预定义的帧长度,以使得每一帧包括用于输入空间音频信号的每个通道的相应的L个样本,这些样本采用映射到对应的时间段的预定义的采样频率。作为这方面的示例,固定的帧长度可以是20毫秒(ms),这在8、16、32或48kHz的采样频率下会分别导致具有每通道L=160,L=320,L=640和L=960个样本的帧。这些帧可以是非重叠的,或者它们可以是部分重叠的。然而,这些值用作非限制性示例,并且例如根据所期望的音频带宽、根据所期望的成帧延迟和/或根据可用的处理能力,可以替代地使用与这些示例不同的帧长度和/或采样频率。
在空间音频处理装置100中,焦点方向是指用户可选择的感兴趣的空间方向。例如,焦点方向通常可以是音频场景的某一方向。在另一示例中,焦点方向或是感兴趣的(定向)声源当前所在的方向。在前一种情况下,用户可选择的焦点方向通常表示保持恒定或变化不频繁的空间方向,因为焦点主要是在特定的空间方向上,而在后一种情况下,用户选择的焦点方向可以更频繁地改变,因为焦点针对某个可能(或可能不)在音频场景中随时间改变其位置的声源而被设置。在示例中,焦点方向例如可以被定义为方位角和/或仰角,其中该方位角定义了相对于第一预定义参考方向的感兴趣的空间方向,该仰角定义了相对于第二预定义参考方向的感兴趣的空间方向。
焦点强度(或焦点量)是指从焦点方向到达的声音的相对声级的用户可选择的变化。焦点强度也可以被称为焦点量,并且这些术语在本公开中可以互换地使用。焦点强度可以在零(即,无焦点)与预定义的最大强度之间选择。可以通过将用户选择的焦点强度映射到在从0到1的范围的缩放因子中并根据该缩放因子修改从焦点方向到达的声音(关于从其他方向到达的声音)的声级来应用焦点强度。
在示例中,焦点确定器102被设置为基于向其提供的焦点输入来得到焦点方向和焦点强度两者。在另一示例中,焦点确定器102被设置为基于向其提供的焦点输入而仅得到焦点方向,但是应用预定义的焦点强度。在后一示例中,预定义的焦点强度可以包括从焦点方向到达的声音的预定义放大(例如,经由使用大于零的预定义值的缩放因子)。音频焦点确定器102关于得到焦点方向和焦点强度(在适用时)的操作的更详细的非限制性示例随后在本公开中描述。
音频焦点处理器104被设置为根据从音频焦点确定器102获得的焦点方向和焦点强度,将输入空间音频信号处理成具有焦点声音分量的空间音频信号。就此而言,音频焦点处理器104可以处理输入空间音频信号,以使得根据焦点强度来修改从焦点方向到达的声音分量的相对强度。这可以被称为焦点处理。在下文中,具有焦点声音分量的空间音频信号主要被称为中间空间音频信号。优选地,输入空间音频信号和中间空间音频信号两者均以第一预定空间音频格式来提供。
输入空间音频信号传送原始音频场景,优选地,除了应用于从焦点方向到达的声音分量的焦点处理之外,原始音频场景在中间空间音频信号中保持相同。输入空间音频信号和中间空间音频信号可以被认为表示关于音频场景的标称收听方向或标称定向。音频再现处理器106被设置为根据其中所接收的再现控制信息,将中间空间音频信号(即,图1中所示的具有焦点声音分量的音频信号)处理成空间输出音频信号。
沿着前述的线路,在示例中,作为输入被提供给音频再现处理器106的再现控制信息可以包括关于由输入空间音频信号表示的音频场景的再现定向的指示,在其他示例中,再现控制信息附加地或可替代地包括适用的扬声器配置的指示。在示例中,再现定向指示包括相对于参考方向(或参考定向)的绝对收听方向的指示。参考方向例如可以是在输入空间音频信号中应用的标称收听方向(或标称定向),或任何(其他)预定义的参考方向。在另一示例中,再现定向指示包括收听方向的改变的指示。
可以采用与焦点方向类似的方式来定义再现定向:在使用绝对收听方向的指示的示例中,可以将再现定向定义为相对于相应的预定义参考定向(例如,为输入空间音频信号定义的标称收听方向)的方位角和/或仰角,而在使用收听方向的变化的指示的示例中,可以将再现定向定义为方位角的变化和/或仰角的变化。与焦点方向的情况类似,再现定向也是可任意选择的,或者可以从一组预定义的再现定向中选择。
基于用户输入来得到再现定向指示,该用户输入可以包括直接用户输入,该直接用户输入经由实现空间音频处理装置100的装置的用户接口,或经由通信耦合到实现空间音频处理装置100的(第二)装置的(第一)装置的用户接口。在这种情况下,所应用的用户接口可以是膝上型计算机或台式计算机的图形用户界面(GUI)、平板计算机的GUI、移动电话的GUI等。
在其他示例中,可以从跟踪设备接收方向指示,该跟踪设备通常被设置为跟踪用户的位置和/或定向,或者例如跟踪用户的头部的位置和/或定向。作为这方面的示例,这种跟踪设备可以包括用户可穿戴的设备,诸如配备有定向/位置跟踪的头戴式显示设备,或者例如布置在耳机或耳麦中的专用用户可穿戴头部跟踪设备。在另一示例中,位于用户的环境中的设备可以为被设置为跟踪用户的定向或用户的头部的定向的设备服务。在另一示例中,可以应用诸如配备有定向/位置跟踪的移动电话或平板计算机之类的通用计算设备,以提取定义用户相对于音频场景的定向的信息,例如以使得用户通过相应地改变计算设备的位置和/或定向来选择再现定向。这例如可以通过用户将计算设备握在他/她的手中并相应地移动该移动设备,或者通过将诸如移动电话之类的移动设备布置在头戴式设备中以使用该移动设备来提供使能跟踪用户的头部的定向的头戴式显示配件来提供。
音频再现处理器106可以从标称收听方向(或标称定向)旋转音频场景,以使得经由再现控制信息指示的再现定向变为前方方向,同时相应地重新定位音频场景的定向声音分量的空间位置以保持它们彼此之间的相对空间位置。这可以被称为音频场景的旋转(或被称为旋转过程),并且旋转过程的结果可以被称为旋转的空间音频信号。用于这种音频场景旋转的技术在本领域中对于各种空间音频格式是已知的,并且音频再现处理器106可以被设置为应用适用于旋转以第一预定空间音频格式提供的中间空间音频信号的技术。
音频再现处理器106还可以将仍以第一预定空间音频格式提供的旋转的空间音频信号转换成采用第二预定空间音频格式的输出空间音频信号,换句话说,将其转换成声音再现硬件所应用的空间音频格式,该声音再现硬件可以被耦合到空间音频处理装置100或者是用于播放输出空间音频信号的目标系统。用于这种空间音频格式转换的技术在本领域中对于多对已知的空间音频格式是已知的,并且在这方面可以根据被应用为第一和第二预定空间音频格式的空间音频格式来应用任何合适的技术。然而,随后在本公开中提供了关于从第一预定空间音频格式到第二预定空间音频格式的空间音频格式转换的音频再现处理器106的操作的多个详细的非限制性示例。
值得注意的是音频场景的旋转仅在某些情况下被应用,而在其他一些场景中,音频再现处理器106可以忽略音频场景的旋转,并将中间空间音频信号从第一预定空间音频格式转换成应用于输出空间音频信号的第二预定空间音频格式。前一种情况的示例是经由耳机的双通道双耳播放,而后一种情况的示例是使用预定义扬声器配置的多通道播放。
例如根据图2中描述的流程图所示的方法200,可以提供参考空间音频处理装置100的组件的上述功能。方法200例如可以通过被设置为经由多个示例来实现本公开中描述的空间音频处理系统100的装置来提供。方法200用作一种用于将表示音频场景的输入空间音频信号处理成表示修改后的音频场景的输出空间音频信号的方法。分别如框202和204中所示,方法200包括接收焦点方向的指示和焦点强度的指示。如框206中所示,方法200还包括将输入空间音频信号处理成表示修改后的音频场景的中间空间音频信号,其中,根据所述焦点强度来修改从所述焦点方向到达的相对声级。如框208中所示,方法200还包括接收控制将中间空间信号处理成输出空间音频信号的再现控制信息。再现控制信息例如可以定义再现定向(例如,收听方向或观看方向)和用于输出空间音频信号的扬声器配置中的至少一个。如框210中所示,方法200还包括根据所述再现控制信息,将中间空间音频信号处理成输出空间音频信号。
例如根据与上文和下文中提供的空间音频处理装置100的组件的相应的功能有关的示例,方法200可以以多种方式变化。
图3示出了根据示例的音频焦点处理器304的一些组件和/或实体的框图。音频焦点处理器304可以用作空间音频处理装置100的框架中的音频焦点处理器104。音频焦点处理器304包括:滤波器组308,用于将输入空间音频信号从时域变换到变换域;焦点提取器310,用于提取表示从焦点方向到达的声音的目标音频信号;音频平移器312,用于生成焦点空间音频信号,其中,目标音频信号被设置在音频场景的其原始空间位置;音频混合器314,用于根据焦点强度,将焦点空间音频信号(仅包括从焦点方向到达的声音)与输入空间音频信号进行组合,以生成中间空间音频信号;以及逆滤波器组316,用于将中间空间音频信号从变换域变换回时域。
在音频焦点处理器304中,输入空间音频信号和中间空间音频信号(在图3的图示中被标记为具有焦点声音分量的音频信号)被提供为相应的Ambisonic音频信号。在示例中,到音频焦点处理器304的输入音频信号包括一阶Ambisonic(FOA)信号,其包括四个信号:全向通道w和沿y、z和x坐标轴的三个正交一阶通道(或模式)。在此使用了坐标顺序y、z、x,因为它与在Ambisonic信号中典型的Ambisonic通道编号(ACN)通道排序的一阶系数相同。由于Ambisonic按照空间波束模式来表示音频场景,因此,下面涉及Ambisonic FOA通道(或信号)的示例可以很容易地被概括为使用对应的一组空间波束模式来表示空间音频的任何空间音频格式。此外,下面涉及Ambisonic FOA通道(或信号)的示例还概括更高阶的Ambisonic(HOA)信号,诸如具有9个通道的二阶Ambisonic或具有16个通道的三阶Ambisonic(经适当修改后)。
滤波器组308被设置为将FOA信号(表示输入空间音频信号)的每一帧的每个通道从时域变换到变换域。在不失一般性的前提下,变换域可以被认为是频域,并且从变换产生的变换域样本可以被称为频率间隔(frequency bin)。滤波器组使用本领域已知的预定变换技术。在示例中,滤波器组使用短时离散傅立叶变换(STFT),以使用预定义的分析窗口长度(例如,20毫秒)将FOA信号的每个通道转换成变换域信号的相应的通道。在另一示例中,滤波器组308使用复调制正交镜滤波器(QMF)组来进行时频域转换。STFT和QMF组用作这方面的非限制性示例,并且在更多示例中,可以使用本领域中已知的任何合适的技术来创建变换域信号。逆滤波器组316被设置为将中间空间音频信号(从音频混合器314获得的)的每一帧从变换域变换回时域,以提供给音频再现处理器106。逆滤波器组316使用与滤波器组308所应用的变换匹配的逆变换,例如,逆STFT或逆QMF。滤波器组308和逆滤波器组316通常被设置为与其他通道分开地处理FOA信号的每个通道。
滤波器组308还可以将每个FOA通道划分成多个频率子带,从而产生为输入空间音频信号的每个通道提供相应的时频表示的变换域FOA信号。给定帧中的给定频带可以被称为时频片(time-frequency tile),并且通常在变换域中针对每个时频片分别执行滤波器组308和逆滤波器组316之间的空间音频信号的处理。例如根据所期望的频率分辨率和/或可用的计算能力,可以选择频率子带的数量和频率子带的相应的带宽。在示例中,子带结构包含根据本领域已知的Bark尺度、等效矩形带(equivalent rectangular band,ERB)尺度或三倍频带尺度(3rd octave band scale)的24个频率子带。在其他示例中,可以使用具有相同或不同带宽的不同数量的频率子带。在这方面的一个特定示例是覆盖整个输入频谱或其连续子集的单个频率子带。另一特定示例是将每个频率间隔视为一个单独的频率子带。
表示变换域输入FOA信号(表示输入空间音频信号)的时频片被提供给焦点提取器310,焦点提取器310被设置为从输入空间音频信号提取表示从焦点方向到达的声音分量的目标音频信号。目标音频信号通常是单耳(单通道)信号,其表示来自焦点方向的音频场景的声音分量,而没有任何空间特性。焦点提取器310可以应用本领域中已知的任何合适的技术来提取目标音频信号。在下文中,参考波束成形器310a和后滤波器310b的级联,提供了焦点提取器310的操作的非限制性示例,如图4的框图所示。波束成形器310a可以包括自适应的波束成形器或静态波束成形器。
在高水平上,波束成形器310a被设置为在每一帧中将输入FOA信号的四个通道的频率子带信号组合成单通道波束成形信号,而后滤波器310b被设置为操作为在波束成形器310a的输出处的可调增益单元。表达波束成形器310a和后滤波器310b的组合操作以得到目标音频信号y(b,n)的公式的一般形式是:
y(b,n)=g(k,n)wH(k,n)x(b,n) (1)
其中,k表示频率子带,b表示频率子带k内的频率间隔,n表示时间索引,g(k,n)表示后滤波器310b的增益,wH(k,n)表示波束成形器310a针对频率子带k和时间索引n的权重向量,其中,符号H表示厄米转置(Hermitian transpose),x(b,n)表示表示针对频率间隔b和时间索引n的输入FOA信号的向量。在等式(1)中,w(k,n)和x(b,n)分别是4×1向量。在等式(1)中,相同的权重向量wH(k,n)和后滤波器增益g(k,n)可以被应用于针对在频率子带k内的频率间隔b的输入FOA信号x(b,n)。
可以使用本领域中已知的任何波束成形方法来生成权重向量w(k,n)。在这方面的示例中,波束成形器310a可以包括最小方差无失真响应(MVDR)波束成形器,其操作以使干扰声能最小化,同时在焦点方向上具有统一的幅度。MVDR波束成形器针对每个频带k,使用:
-频率子带k的频率间隔b内的输入FOA信号x(b,n)的协方差矩阵的估计(分别针对每一帧n或经由在预定数量的连续时间索引n上计算的平均值);以及
-根据焦点方向而选择的转向向量,该转向向量在FOA信号的情况下可以包括指向焦点方向的单位向量。
波束成形器310a可以被设置为使用本领域熟知的MVDR公式,基于协方差矩阵的估计以及转向向量来计算权重向量w(k,n)。
前述的波束成形器310a的操作示例假定使用自适应波束成形器。在另一示例中,波束成形器310a包括静态波束成形器,其可以被设置为计算表示朝向焦点方向的心形拾音模式(cardioid pick-up pattern)的权重向量w(k,n)。在此示例中,权重向量w(k,n)对于所有的频率子带k都是相同的。可以基于输入FOA信号来得到心形拾音模式,如下:假定v(n)为在帧k处指向焦点方向的3x1单位向量(以典型的ACN Ambisonic一阶通道顺序y、z、x),则指向焦点方向的心形拾音模式可以通过根据以下公式而设置波束成形权重来获得:
Figure BDA0003011171980000161
后滤波器310b可以使用本领域中已知的任何合适的后滤波器。例如,可以应用Dillekaris-Manias、Symeon和Pulkki,Ville在“使用麦克风阵列的空间滤波应用的交叉模式相干算法(Cross pattern coherence algorithm for spatial filteringapplications utilizing microphone arrays)”(IEEE期刊,关于音频、语音和语言处理,第21卷,第11期(2013年):第2356-2367页)中描述的后滤波器,其适用于FOA信号的处理。在下面描述这方面的示例。
后滤波器310b可以被设置为根据以下公式来计算输入FOA信号的全向通道(或分量)w与具有朝向焦点方向的正波瓣的八位数信号(figure-of-eight signal)之间的互相关Cb
Figure BDA0003011171980000162
其中,Cb(b,n)表示频率间隔b中针对时间索引n的互相关,具有子索引w、y、z和x的信号x表示在频率间隔b中在时间索引n的输入FOA信号x(b,n)的相应的通道(或分量),星号*表示复共轭运算,E表示期望运算符,其例如可以被提供为所期望的时间范围(例如,预定义数量的连续时间索引n)上的平均值。
针对频率子带k针对时间索引n的实值非负互相关度量可以被表示为:
C(k,n)=max[0,Re(∑b∈kCb(b,n))] (4)
其中,在实践中,C(k,n)表示针对频率子带k和时间索引n从焦点方向的区域到达的声音的能量估计。因此,在波束成形器310a的输出信号处的波束成形信号wH(k,n)x(b,n)中的时间索引n处在频率子带k内在频率间隔中的能量D(k,n)可以根据下式来估计:
D(k,n)=E[∑b∈kwH(k,n)x(b,n)(wH(k,n)x(b,n))*] (5)
后滤波器310的增益g(k,n)可以如下式来获得:
Figure BDA0003011171980000171
公式(6)意味着当从焦点方向的区域到达的声音的能量估计C(k,n)小于在波束成形器310a的输出处的波束成形信号的能量D(k,n)时,后滤波器310b操作以在时间索引n处减少频率子带k中的波束成形信号的能量,以得到目标音频信号的对应的时频片。另一方面,如果从焦点方向的区域到达的声音的能量估计C(k,n)不小于波束成形信号的能量D(k,n),则在时间索引n处在频率子带k中的波束成形信号被应用诸如为目标音频信号的对应的时频片。因此,后滤波器310b用于将波束成形信号的频谱调整为更接近从焦点方向的区域到达的声音的频谱。
返回参考图3,音频平移器312从焦点提取器310接收目标音频信号,并被配置为基于目标音频信号来生成焦点空间音频信号,其中,目标音频信号被设置在其在音频场景的原始空间位置,同时省略了在输入空间音频信号中传送的音频场景的其余部分。音频平移器312可以使用目标音频信号y(b,n)和指向焦点方向的单位向量v(n)来生成FOA信号,该FOA信号表示针对频率间隔b和时间索引n的焦点空间音频信号yFOA(b,n):
Figure BDA0003011171980000181
为音频混合器314提供焦点空间音频信号yFOA(b,n),音频混合器314还接收表示输入空间音频信号的(变换域)输入FOA信号x(b,n)。在示例中,前述的MDVR波束成形可以采用前瞻性,因此,音频混合器314可以将合适的延迟调整应用于焦点空间音频信号的通道和/或输入空间音频信号的通道。音频混合器314可以得到(变换域)输出FOA信号yMIX,其将中间空间音频信号(即,具有焦点声音分量的空间音频信号,如图1和3中所示)表示为焦点空间音频信号yFOA和输入空间音频信号x的线性组合,其中,焦点空间音频信号yFOA通过基于焦点强度而得到的缩放因子进行缩放。缩放因子可以具有在0…gmax的范围而选择的值,以使得值0指示没有应用焦点,而值gmax指示最大焦点。缩放因子通常具有随焦点强度的增大而增大的值。另外,上述线性组合的形成可以涉及应用第二缩放因子来缩放输入空间音频信号x,其中,第二缩放因子具有随焦点强度的增大而减小的值。
作为这方面的示例,音频混合器314可以被设置为根据下式来得到输出FOA信号yMIX(b,n),其表示针对频率间隔b和时间索引n的中间空间音频信号:
yMIX(b,n)=a(n)yFOA(b,n)+(1-a(n))x(b,n) (8)
其中,a(n)表示基于焦点强度而得到的针对帧n的缩放因子。在此,缩放因子a(n)具有在0…1范围内的值,以使得值0指示没有应用焦点,而值1指示最大焦点。在示例中,对公式(8)进行修改,以使得表示焦点空间音频信号的FOA信号yFOA(n,n)被另一预定义的缩放因子(例如,具有大于1的值,例如,4)放大以进一步加重焦点。
表示变换域中的中间空间音频信号的输出FOA信号yMIX(n,n)被提供给逆滤波器组316,其被配置为如上所述地将中间空间音频信号的每一帧从变换域变换回时域,以提供给音频再现处理器106。
图5示出了根据示例的音频再现处理器306的一些组件和/或实体的框图。音频再现处理器306可以用作空间音频处理装置100的框架中的音频再现处理器106,以根据在音频再现处理器306处接收的再现定向的指示,将被提供为Ambisonic信号的中间空间音频信号(诸如在前述示例中提供的FOA信号)转换成被提供为双通道双耳信号的输出空间音频信号以用于播放。
音频再现处理器306包括Ambisonic旋转矩阵处理器318,其被配置为旋转由表示来自标称收听方向(或标称定向)的中间空间音频信号的FOA信号传送的音频场景,以使得所指示的再现定向指示变为前方方向,同时相应地重新定位音频场景的定向声音分量的空间位置以保持它们相对于彼此的相对空间位置。因此,此旋转过程修改了FOA信号的通道,以使得提供相对于FOA信号所传送的音频场景的期望定向。就此而言,Ambisonic旋转处理器318可以根据所指示的再现定向(与由中间空间音频信号所表示的标称收听方向相比)生成旋转矩阵,并使用该旋转矩阵将FOA信号的通道相乘。用于FOA信号(和HOA信号)的音频场景的这种旋转的技术在本领域中是已知的。旋转处理的结果是旋转的中间空间音频信号,其包括焦点声音分量,并且其中,已根据所指示的再现定向修改了收听方向(即,相对于音频场景的定向)。作为这方面的非限制性示例,旋转处理可以应用Laitinen,Mikko-Ville在“用于定向音频编码的双耳再现(Binaural reproduction for Directional AudioCoding)”(赫尔辛基理工大学,信号处理和声学系,理学硕士论文,2008年)中定义的方法。
音频再现处理器306还包括双耳合成器320,其被配置为将表示旋转的中间空间音频信号的FOA信号转换成用于经由耳机播放的双通道双耳信号。就此而言,双耳合成器320可以存储包括多对预定义的有限脉冲响应(FIR)滤波器对的滤波器数据库,其中,每对FIR滤波器对被用于对FOA(即,FOA信号的四个通道)信号内的一个球面谐波信号进行滤波,以生成针对双通道信号的左右通道(而类似的滤波通常适用于Ambisonic信号)。双耳信号是所有球面谐波信号(即,FOA信号的通道)上这种经滤波的双通道输出的总和。双通道双耳信号是音频再现处理器306的输出空间音频信号。换句话说,在FOA的情况下,可以提供四对FIR滤波器,例如,提供为2×4的FIR滤波器矩阵。双耳合成器320所应用的FIR滤波器矩阵的FIR滤波器可以通过使用本领域已知的,关于头部相关脉冲响应(HRIR)或头部相关传递函数(HRTF)的数据集的适用的最小二乘优化法来生成。这种设计过程的示例是将HRIR数据集变换为频率间隔(例如,通过FFT)以获得HRTF数据集,并为每个频率间隔确定复值2×4处理矩阵(用于FOA信号),该矩阵在最小二乘意义上在HRTF数据集的数据点处对可用的HRTF数据集进行近似。当以这种方式针对2×4复值矩阵确定所有频率间隔时,可以将结果进行逆变换(例如,通过逆FFT)为时域FIR滤波器。通常,还通过使用Hanning窗口对FIR滤波器进行窗口化处理。
在上文中,音频焦点处理器304和音频再现处理器306被描述为彼此分离且独立的实体。然而,如图6的示例性框图所示,音频焦点处理器304和音频再现处理器306可以被应用在空间音频处理装置100的框架中以提供空间音频处理装置300,其用于将被提供为FOA信号的输入空间音频信号转换成被提供为用于耳机播放的双通道双耳信号的输出空间音频信号。
在上文中,参考音频焦点处理器304,描述了将被提供为FOA信号的输入空间音频信号处理成也被提供为FOA信号的中间空间音频信号的详细示例。在其他示例中,与FOA(通常为Ambisonic)不同的空间音频格式可以被应用为输入空间音频信号和中间空间音频信号的空间音频格式。
作为这方面的非限制性示例,图7示出了根据示例的音频焦点处理器404的一些组件和/或实体的框图。音频焦点处理器404被设置为将被提供为参数空间音频信号的输入空间音频信号处理成也被提供为参数音频信号的中间空间音频信号,并且音频焦点处理器404可以用作空间音频处理装置100的框架中的音频焦点处理器104。
在不失一般性的前提下,在以下示例中,假定被提供为参数空间音频信号的输入空间音频信号包括一个或多个音频通道以及用于一个或多个频带的空间元数据。作为示例,对于多个频率子带,可以存在两个音频通道以及空间元数据。对于一个或多个频率子带并且对于多个帧(即,对于多个时频片),空间元数据包括以下空间参数:
-方向指示,其指示相应的时频片中的定向声音分量的空间方向。
-能量比参数r(k,n),其指示相应的时频片中的定向声音分量的能量与相应的时频片的总能量之比,即,针对频率子带k针对时间索引n。能量比率指示相应的时频片中的定向声音分量的相对强度并且具有在0…1范围内的值。
音频焦点处理器404被设置为处理空间元数据,以便根据焦点强度来修改从焦点方向到达的声音的相对强度,而此过程可以或可以不进一步包含对一个或多个音频通道的修改。
音频焦点处理器404接收输入空间音频信号,该输入空间音频信号对于每一帧包括一个或多个音频通道、一个或多个频率子带的相应的空间方向、以及一个或多个频率子带的相应的能量比r(k,n)。音频焦点处理器404可以包括解复用器410,其将作为输入空间音频信号而接收的信息分解成音频通道、方向、以及能量比r(k,n)。然而,可以省略解复用器410,并且可以由音频焦点处理器404在相应的专用输入信号中接收音频通道、方向以及能量比r(k,n)中的每一个。
音频焦点处理器404包括角度差计算器412,其被配置为计算焦点方向与针对帧n中的频率子带k的空间元数据中所指示的方向之间的相应的角度差β(k,n)。音频焦点处理器404还包括比率修改器414,比率修改器414被配置为基于角度差β(k,n)并且还基于焦点强度,基于在空间元数据中所指示的能量比r(k,n)来得到针对每个频率子带的修改后的能量比以及频谱调整因子。在此,例如经由在上文中在音频混合器312的上下文中描述的所指示的焦点强度而得到的缩放因子a(n)来指示焦点强度,该缩放因子a(n)具有在0…1范围内的值,以使得值0指示未应用焦点,而值1指示最大焦点。
比率修改器414可以被设置为基于针对频率子带k和时间索引n而获得的缩放因子a(n)和角度差β(k,n)来得到针对频率子带k和时间索引n定向增益(direct-gain)参数f(k,n)。在这方面,例如可以应用下式:
f(k,n)=(1-a(n))+a(n)*4*max{0,min[1,func(β(k,n))]} (9)
其中,
Figure BDA0003011171980000221
假定最大焦点a(n)=1,当角度差β(k,n)小于25度时,公式(9)得到定向增益参数f(k,n)=4,当角度差β(k,n)大于50度,公式(9)得到定向增益参数f(k,n)=0。当角度差β(k,n)在25度与50度之间时,公式(9)用于根据角度差β(k,n),将定向增益参数f(k,n)内插到4和0之间的值中。对于缩放因子a(n)的其他非零值,根据缩放因子a(n)的值,发生定向增益参数f(k,n)的类似内插。
等式(9)用作得到定向增益参数f(k,n)的非限制性示例,其通常可以由角度差β(k,n)的另一个预定义函数来定义,其中,在预定义的最小角度差(例如,如上面示例中的25度)与预定义的最大角度差(例如,如上面示例中的50度)之间,定向增益参数f(k,n)的值随着角度差β(k,n)的值的减小而增大,同时它根据缩放因子a(n)进行缩放。因此,在缩放因子a(n)是非零值的情况下,当角度差β(k,n)很小时,可以应用定向增益参数f(k,n)来放大从焦点方向到达的声音,而当角度差β(k,n)很大时,可以应用定向增益参数f(k,n)来衰减从焦点方向到达的声音。
可以将在时间索引n处在频率子带k中更新定向声音分量能量值ED(k,n)计算为定向增益参数f(k,n)与能量比参数r(k,n)的乘积,即:
ED(k,n)=f(k,n)r(k,n) (11)
例如根据下式,可以计算在时间索引n处在频率子带k中的更新环境声音分量能量值EA(k,n):
EA(k,n)=(1-r(k,n))(1-a(n)) (12)
例如通过下式,可以基于声音能量的整体修改,计算针对频率子带k和时间索引n的频谱调整因子s(k,n):
Figure BDA0003011171980000231
帧n中的频率子带k中的修改后的能量比参数r′(k,n)可以通过下式来计算:
Figure BDA0003011171980000232
其中ED(k,n)=EA(k,n)=0的未定义情况可导致将针对频率子带k和时间索引n的修改后的能量比参数r′(k,n)设置为零值。可以应用针对频率子带k和时间索引n的修改后的能量比参数r′(k,n),以替换空间元数据中对应的时频片的接收能量比参数r(k,n)。
音频焦点处理器404还可以包括复用器416,其被配置为将音频通道、方向以及修改后的能量比组合成被提供为参数空间音频信号的中间空间音频信号,其中,方向和修改后的能量比r′(k,n)构成在音频焦点处理器404的输出处的(修改后的)空间元数据。此外,复用器416还可以用频谱调整因子s(k,n)来补充空间元数据,或者可替代地提供频谱调整因子s(k,n)作为音频焦点处理器的另一输出(与中间空间音频信号并行)。然而,可以省略复用器416,并且音频通道、方向、修改后的能量比r′(k,n)以及频谱调整因子s(k,n)中的每一个可以被提供为音频焦点处理器404的相应的单独的输出信号。
图8A示出了根据示例的音频再现处理器406的一些组件和/或实体的框图。音频再现处理器406可以用作空间音频处理装置100的框架中的音频再现处理器104,以根据在音频再现处理器406处所接收的再现定向的指示,将被提供为参数空间音频信号的中间空间音频信号转换成被提供为双通道双耳的输出空间音频信号以用于播放。
音频再现处理器406接收中间空间音频信号,其对于每一帧包括前述的一个或多个音频通道以及空间元数据。空间元数据包括一个或多个频率子带的相应的空间方向以及一个或多个频率子带的相应的能量比r(k,n)。能量比r(k,n)可以包括由音频焦点处理器404得到的修改后的能量比r′(k,n),并且在下文中,音频再现处理器406的描述简单地指代能量比r′(k,n)。空间元数据还包括或伴随有一个或多个频率子带的相应的频谱调整因子s(k,n)。
音频再现处理器406可以包括解复用器418,其将作为输入空间音频信号而接收的信息分解成一个或多个音频通道、方向、能量比r′(k,n)、以及频谱调整因子s(k,n)。然而,可以省略复用器418,并且可以由音频再现处理器406在相应的专用输入信号中接收一个或多个音频通道、方向、能量比r′(k,n)以及频谱调整因子s(k,n)中的每一个。
音频再现处理器406包括:滤波器组420,用于将中间空间音频信号的一个或多个音频通道中的每一个从时域变换到变换域;频谱调整器422,用于根据频谱调整因子s(k,n)来增强一个或多个音频通道;双耳合成器424,用于根据所指示的再现定向,将一个或多个增强音频通道处理成双通道双耳信号以经由耳机来播放;以及逆滤波器组426,用于将双通道双耳信号从变换域变换回时域。
滤波器组420被设置为将一个或多个音频通道中的每一个从时域变换到变换域,而逆滤波器组426被设置为将双通道双耳信号的通道从变换域变换回时域。滤波器组420和逆滤波器组426的操作分别对应于在上文中在音频焦点处理器304的上下文中描述的滤波器组308和逆滤波器组316的操作,并且其中所提供的对它们操作的描述适用于滤波器组420和逆滤波器组426(经适当修改后)。
频谱调整器422被配置为经由频谱调整因子s(k,n)的应用来增强一个或多个音频通道,从而得到增强的一个或多个音频通道。就此而言,频谱调整器422可以被设置为将在时间索引n处在频率子带k中的一个或多个音频通道中的每一个(中的频率间隔)乘以相应的频谱调整因子s(k,n)。因此,由频谱调整器422进行的增强处理根据焦点强度来放大从焦点方向到达的空间声音的一部分和/或使不是从焦点方向到达的空间声音的一部分衰减,从而完成由比率修改器414执行的与音频焦点有关的处理。
频谱调整器422在本文中被描述为音频再现处理器406的用于提高计算效率的组件,它引入其中音频再现处理器406与音频焦点处理器404一起操作的场景:由于双耳合成器424(其在下文中更详细地描述)处理变换域信号,将频谱调整器与双耳合成器424一起提供使得能够省去从时域到变换域并再返回到音频焦点处理器404中的单独转换。尽管如此,虽然在本文被描述为作为频谱再现处理器406的组成部分,但是频谱调整器422可以可替代地被提供为音频焦点处理器404的一部分。如上所述,这需要将滤波器组420和逆滤波器组426(或等效的处理实体)包括在音频焦点处理器404中,以用于将空间输入音频信号的音频通道转换到变换域以进行频谱调整处理,然后转换回到时域以作为(时域)中间空间音频信号来提供。
双耳合成器424被配置为根据所指示的再现定向,将一个或多个增强音频通道处理成双通道双耳信号以经由耳机来播放。双耳合成器424可以应用本领域中已知的任何参数空间合成技术,以基于增强音频通道来生成双通道双耳信号(在变换域中)。就此而言,焦点处理已经被应用于音频通道和空间元数据,并因此双耳合成器424的操作用于根据所指示的再现定向来旋转由增强音频通道、方向以及能量比r′(k,n)所表示的音频场景,并将旋转的音频场景转换成适合于再现给用户的双通道双耳信号。
作为非限制性示例,双耳合成器424中的双耳合成可以包含以下操作:
-通过将每个增强音频通道乘以因子
Figure BDA0003011171980000251
来获得定向部分并乘以
Figure BDA0003011171980000252
来获得非定向部分,而将增强音频通道的每个通道处的音频信号划分成频率子带中的定向和非定向部分;
-旋转针对每个频率子带的方向参数,以表明所指示的再现定向;
-在每个频率子带生成相应的单通道复合信号,作为跨通道的定向部分的组合(例如,作为跨通道的总和),并使用根据旋转的方向参数而选择的HRTF对来处理复合信号的频率子带,以生成(双通道)空间化定向信号的相应的频率子带。
-假定中间空间音频信号由两个音频通道组成,则用合适的去相关操作来处理非定向部分,其中该去相关操作为非定向信号生成双耳扩散场相干。
-在每个频率子带,组合(在两个通道处的)处理后的非定向信号与空间化定向信号,例如组合为非定向信号和空间化定向信号的相应的通道之和,以获得变换域中最终的双通道双耳信号,其用作逆滤波器组426的输入。
如前所述,逆滤波器组426将在双耳合成器424中生成的双耳信号的每个通道从变换域变换回时域,以提供作为音频再现处理器406的输出空间音频信号。
图8B示出了根据示例的音频再现处理器506的一些组件和/或实体的框图。音频再现处理器506可以用作空间音频处理装置100的框架中的音频再现处理器104,以根据预定义扬声器配置,将被提供为参数空间音频信号的中间空间音频信号转换成被提供为多通道扬声器信号的输出空间音频信号。
音频再现处理器506包括解复用器418、滤波器组420以及频谱调整器422,它们与在上文中在音频再现处理器406的上下文中描述的那些组件类似。此外,音频再现处理器506中包括的逆滤波器组426的功能与在上文中在音频再现处理器406的上下文中描述的逆滤波器组类似,不同之处在于在音频再现处理器506的上下文中,逆滤波器组426被设置为将在扬声器合成器428中生成的扬声器通道中的每一个从变换域变换回时域,以提供作为音频再现处理器506的输出空间音频信号。
音频再现处理器506还包括扬声器合成器428,其用于根据预定义扬声器配置,将从频谱调整器244获得的一个或多个增强音频通道处理成多通道信号。预定义扬声器配置的指示可以包括扬声器相对于彼此和/或相对于预定义的参考点的位置的相应的指示。音频再现处理器506可以应用本领域中已知的任何技术,以用于根据预定义扬声器配置,将一个或多个增强音频通道从参数空间音频格式转换成多通道扬声器信号。与在音频再现处理器406的情况下不同,由于一组扬声器被应用以再现整个音频场景,并且收听者可以容易地通过相应地转动他/她的头部来选择或调整收听角度或定向,因此,不需要由一个或多个增强音频通道所表示的音频场景的明确旋转。作为非限制性示例,音频再现处理器506可以使用Vilkamo,Juha和Pulkki,Ville在“通过协方差域渲染的定向音频编码中的解相关器伪影最小化(Minimization of decorrelator artifacts in directional audio coding bycovariance domain rendering)”(《音频工程学会期刊》第61卷第9期(2013),第637-646页)中描述的方法,根据所应用的扬声器配置来提供从参数空间音频格式到扬声器信号的转换。
在上文中,音频焦点处理器404和音频再现处理器406被描述为彼此分离且独立的实体。然而,如图9A的示例性框图所示,音频焦点处理器404和音频再现处理器406可以被应用在空间音频处理装置100的框架中以提供空间音频处理装置400a,其用于将被提供为参数空间音频信号的输入空间音频信号处理成被提供为双通道双耳信号的输出空间音频信号以进行耳机播放。
沿着相似的线路,音频焦点处理器404和音频再现处理器506被描述为彼此分离且独立的实体。然而,如图9B的示例性框图所示,音频焦点处理器404和音频再现处理器506可以被应用在空间音频处理装置100的框架中以提供空间音频处理装置400b,其用于根据预定义扬声器配置将被提供为参数空间音频信号的输入空间音频信号处理成被提供为多通道扬声器信号的输出空间音频信号。
图10示出了根据示例的音频焦点处理器604的一些组件和/或实体的框图。该音频焦点处理器被设置为将被提供为多通道扬声器信号的输入空间音频信号处理成也被提供为多通道扬声器信号的中间空间音频信号,并且音频焦点处理器604可以用作空间音频处理装置100的框架中的音频焦点处理器104。
音频焦点处理器604包括角度差计算器612,其被设置为针对作为输入空间音频信号而接收的多通道扬声器信号的每个音频通道,计算帧n中焦点方向与扬声器方向之间的相应的角度差β(n)。扬声器方向可以作为输入信号被提供给音频焦点处理器604(并被提供给角度差计算器612),或者角度差计算器612可以具有关于适用的扬声器方向的预定义信息。对应于给定通道(并因此对应于给定扬声器)的扬声器方向例如可以被定义为给定扬声器的方向与预定义的参考方向之间的方位角。由于音频焦点处理器604未将音频通道分解成多个频率子带,所以每一帧中的每个音频通道在概念上被处理成单个频带(频率子带)。
音频焦点处理器604还包括增益确定器614,其被设置为针对帧n中的多通道扬声器信号的每个音频通道,计算相应的定向增益参数f(n)。定向增益参数f(n)的计算可以采用类似于上文所述的比率修改器414中所应用的方式来执行,例如使用公式(9)和(10),不同之处在于在增益确定器614的情况下,针对每个音频通道在单个频带(频率子带)中得到定向增益参数f(n)。
音频焦点处理器604还包括焦点修改器616,其被设置为根据为其得到的定向增益参数f(n)来修改多通道扬声器信号的音频通道。就此而言,焦点修改器616可以将多通道扬声器的每个音频通道中的信号与为相应的音频通道而得到的定向增益参数相乘,从而得到具有焦点声音分量的修改后的多通道扬声器信号,其可以在音频焦点处理器604的输出处被提供为中间空间音频信号。
图11A示出了空间音频处理装置100的框架中的音频焦点处理器604以提供空间音频处理装置600a,其用于将根据第一扬声器配置而被提供为多通道扬声器信号的输入空间音频信号处理成根据第二扬声器配置而提供为多通道扬声器信号的输出空间音频信号。第二扬声器配置的指示可以作为再现控制信息来接收。
空间音频处理装置600a包括音频再现处理器606,其被设置为将根据第一扬声器配置而被提供为多通道扬声器信号的中间空间音频信号转换成根据第二扬声器配置而被提供为多通道扬声器信号的输出空间音频信号。从第一扬声器配置到第二扬声器配置的转换例如可以使用向量基幅度平移(VBAP)或本领域中已知的另一合适的幅度平移技术来提供。一种应用幅度平移技术(诸如VBAP)的方法包括:得到幅度平移增益的N×M矩阵,其定义了从第一扬声器配置的M个通道到第二扬声器配置的N个通道的转换;以及使用该矩阵,将根据第一扬声器配置而被提供为多通道扬声器信号的中间空间音频信号的通道相乘。作为非限制性示例,VBAP幅度平移增益的得到在Pulkki,Ville的“使用向量基幅度平移的虚拟声源定位(Virtual sound source positioning using vector base amplitudepanning)”(《音频工程学会学报》第45卷第6期(1997),第456-466页)中提供。
在空间音频处理装置600a的变型中,扬声器配置对于输入空间音频信号和输出空间音频信号是相同的。在这种情况下,被提供为音频焦点处理器604的输出的中间空间音频信号可以被直接应用为输出空间音频信号。
图11B示出了空间音频处理装置100的框架中的音频焦点处理器604以提供空间音频处理装置600b,其用于将根据预定义扬声器配置而被提供为多通道扬声器信号的输入空间音频信号处理成被提供为双通道双耳信号的输出空间音频信号以用于耳机播放。
空间音频处理装置600b包括音频再现处理器706,其被设置为将根据预定义扬声器配置而被提供为多通道扬声器信号的中间空间音频信号转换成根据所指示的再现定向而被提供为双通道双耳信号的输出空间音频信号。作为示例,这可以包括:音频再现处理器706根据再现定向来处理中间空间音频信号的音频通道以旋转其中所表示的音频场景;以及将处理后的音频通道从那些根据预定义扬声器配置的多通道扬声器信号转换成用作输出空间音频信号的双通道双耳信号。作为另一示例,音频场景的旋转可以被执行为从多通道扬声器信号到双通道双耳信号的转换的一部分,例如,以使得根据所指示的再现定向来选择用于实现该转换的一组HRTF。用于将根据某一扬声器配置的多通道扬声器信号转换成双通道双耳信号的各种技术在本领域中是已知的。作为示例,音频再现处理器706可以应用本领域中已知的HRTF处理,以基于多通道扬声器信号的通道来得到双耳信号的两个通道,并且作为补充引入预定义的(合成)混响分量,以便生成真实收听环境(诸如某一大小的房间或室外空间)的听觉印象。作为这方面的非限制性示例,从多通道扬声器信号到双耳信号的转换可以应用例如在US 9,860,666 B2中描述的方法。
空间音频处理系统100以及空间音频处理装置300、400a、400b、600a和600b包括音频焦点确定器102,其被设置为根据向其提供的焦点输入来得到焦点方向和焦点强度中的至少一个。
在示例中,可以通过使用包括一个或多个运动传感器的传感器装置来得到音频焦点确定器102的焦点输入,该传感器装置被配置为检测穿戴用户可穿戴设备的人的手臂位置的至少一方面,并将手臂位置信息作为焦点输入传送给音频焦点确定器102,其中该手臂位置信息定义手臂位置的至少一方面。手臂位置信息可以包括用户的手臂正指向的方向的指示或者用户的手臂正指向的方向的变化的指示。音频焦点确定器102可以使用此信息来得到焦点方向。手臂位置信息还可以包括用户的前臂与上臂之间的角度的指示。音频焦点确定器102可以使用此信息来得到焦点强度,例如经由下式:
Figure BDA0003011171980000301
根据公式(15)而得到的焦点强度可以被直接应用为上述缩放因子a(n),或者可以根据公式(15)经由预定义的映射函数从焦点强度得到缩放因子a(n)。
在以上示例的变型中,传感器装置可以被配置为跟踪用户的手指的位置而不是手臂位置。在以上示例的另一变型中,传感器装置可以被配置为仅得到焦点的一方面,而焦点的另一方面是可使用另一用户输入部件而得到的。作为这方面的示例,传感器装置可以用于根据用户的手臂的位置(或用户的手指的位置)来得到焦点强度,而焦点方向例如可以基于用户的头部的定向来得到(使用另一跟踪部件)。
在上面的示例中,传感器装置包括被设置在用户可穿戴设备(诸如头戴式显示设备)中的一个或多个运动传感器。在另一示例中,传感器装置包括被设置在位于用户环境中的设备中的一个或多个运动传感器。在又一示例中,传感器装置包括被设置在用户可穿戴设备中的一个或多个运动传感器和被设置在位于用户环境中的设备中的一个或多个运动传感器的组合。
在以上示例的变型中,传感器装置可以包括被设置在用户环境中的一个或多个红外摄像机,而用户例如穿戴着在由一个或多个红外摄像机所捕获的图像中可检测的特定衬衫或手套,并且音频焦点确定器102可以被设置为基于其中作为焦点输入而被接收的由一个或多个红外摄像机所捕获的图像来得到手臂位置(或手指位置)。
在另一示例中,用于音频焦点确定器102的焦点输入可以通过使用手持式指向设备以及手持式触敏控制器设备来得到,由此,焦点输入包括一个或多个与指向设备的定向有关的指示以及一个或多个经由触敏控制器设备而接收的用户输入的滑动手势的指示。音频焦点确定器102可以被设置为基于指向设备的定向来得到焦点方向,并基于滑动手势来得到焦点强度或其变化(例如,设置或调整缩放因子a(n)的值,例如,相应地在0…1的范围内)。
图12示出了根据另一示例的音频焦点确定器802的一些组件和/或实体的框图。音频焦点确定器802可以用作空间音频处理装置100的框架中的音频焦点确定器102。被提供给音频焦点确定器802的焦点输入包括由用户所应用的当前观看方向的指示。观看方向例如可以从用户所穿戴的头戴式显示设备或头部跟踪设备来接收。音频焦点确定器802用于输出观看方向,作为焦点方向,而焦点强度如下文所述地来得到。
音频焦点确定器802被设置为基于观看方向随时间的变化来保持跟踪焦点强度,其中,焦点强度最初被设置为零。音频焦点确定器802包括观看角度跟踪器808,其被设置为以预定义的时间间隔(例如,每秒50次)来跟踪当前的观看方向。在每次观察时,观看角度跟踪器808记录与观看方向的(刚好)前一观察相比,观看方向的绝对角度变化α(n),从而提供角度变化α(n)的时间序列。观看角度跟踪器808还基于预定义的时间段(诸如一秒)内的绝对角度变化α(n)(例如,预定义数量的连续角度变化α(n))来计算变化速度度量。作为非限制性示例,变化速度度量可以被计算为预定义的时间段上的绝对角度变化α(n)的总和或平均值。在一些示例中,观看角度跟踪器808可以在将观看方向指示用于绝对角度变化α(n)的计算之前应用观看方向指示的平滑(例如,合适的低通滤波)。
音频焦点确定器802还包括焦点强度确定器810,其被设置为基于在观看角度跟踪器808中计算的变化速度度量来得到焦点强度。所确定的焦点强度可以被提供为音频焦点确定器802的输出,例如,被提供给音频焦点处理器104、304、404、604。在这方面,焦点强度确定器810可以操作以随着变化速度的减小而增大焦点强度,并且随着变化速度的增大而减小焦点强度。这例如可以通过以下方式来提供:
-如果变化速度度量指示变化速度小于第一预定阈值(例如,每秒10度),则焦点强度被增大预定量(例如,0.05);
-如果变化速度度量指示变化速度超过第二预定阈值(例如,每秒30度),则焦点强度被设置为预定值(例如,零或其他相对小的值);
-焦点强度不会降低到预定义的最小值(例如,零)以下,也不会增大到预定义的最大值(例如,0.7)以上。
在上文中,空间音频处理装置100、300、400a、400b、600a和600b及其组件已被描述为不相关联的独立系统,其因此可用于单独处理例如多视图视频内容的空间音频信号。然而,在典型的使用实例中,多视图音频与多视图视频一起被提供,因此空间音频处理装置100、300、400a、400b、600a或600b或其组件通常被实现为虚拟现实(VR)系统的一部分,该虚拟现实(VR)系统利用空间音频来提供沉浸式视听用户体验。在这样的视听系统中,作为输入被提供给空间音频处理装置100、300、400a,400b,600a,600b或其组件的控制信息的至少一些方面可以从这种试听系统的视频处理部分得到。特别地,焦点输入(到音频焦点确定器102、802)的至少一部分和/或再现控制信息(被提供给再现处理器106、306、406、506、606、706)的至少一部分可以源自视听系统的视频处理部分。
图13示出了示例性装置900的一些组件的框图。装置900可以包括在图13中未示出的其他组件、元件或部分。装置900例如可以在实现在上文中在空间音频处理装置100、300、400a、400b、600a、600b的上下文中描述的一个或多个组件中使用。
装置900包括处理器916和用于存储数据和计算机程序代码917的存储器915。存储器915和存储在其中的计算机程序代码917的一部分可进一步被设置为与处理器916一起实现在上文中在空间音频处理装置100、300、400a、400b、600a、600b或其一个或多个组件的上下文中描述的操作、过程和/或功能中的至少一些。
装置900包括用于与其他设备通信的通信部件912。通信部件912包括使能与其他装置的有线或无线通信的至少一个通信装置。通信部件912的通信装置也可被称为相应的通信构件。
装置900还可以包括用户I/O(输入/输出)组件918,这些组件可被设置为可与处理器916和计算机程序代码917的一部分一起提供用户接口以用于接收来自装置900的用户的输入和/或向装置900的用户提供输出以控制由装置900实现的空间音频处理装置100、300、400a、400b、600a、600b或其一个或多个组件的操作的至少一些方面。用户I/O组件918可以包括诸如显示器、触摸屏、触摸板、鼠标、键盘、和/或一个或多个键或按钮布置等的硬件组件。用户I/O组件918也可被称为外围设备。处理器916可被设置为例如根据计算机程序代码917的一部分,并且还可能根据经由用户I/O组件918接收的用户输入和/或根据经由通信部件912接收的信息来控制设备900的操作。
虽然处理器916被描绘为单个组件,但是它也可被实现为一个或多个单独的处理组件。类似地,虽然存储器915被描绘为单个组件,但是它也可被实现为一个或多个单独的组件,这些组件中的一些或全部可被集成/移动和/或可以提供永久/半永久/动态/缓存存储。
存储在存储器915中的计算机程序代码917可以包括计算机可执行指令,该计算机可执行指令在被加载到处理器916中时控制装置900的操作的一个或多个方面。作为示例,计算机可执行指令可被提供为一个或多个指令的一个或多个序列。处理器916能够通过从存储器915读取包括在其中的一个或多个指令的一个或多个序列来加载和执行计算机程序代码917。一个或多个指令的一个或多个序列可被配置为当被处理器916执行时,使得装置900执行在上文中在空间音频处理装置100、300、400a、400b、600a、600b或一个或多个组件的上下文中描述的操作、过程和/或功能。
因此,装置900可以包括至少一个处理器716以及存储有用于一个或多个程序的计算机程序代码917的至少一个存储器915,至少一个存储器715和计算机程序代码917被配置为与至少一个处理器916一起使得装置900执行在上文中在空间音频处理装置100、300、400a、400b、600a、600b或其一个或多个组件的上下文中描述的操作、过程和/或功能。
存储在存储器915中的计算机程序例如可被提供为相应的计算机程序产品,该计算机程序产品包括在其上存储计算机程序代码917的至少一个计算机可读非暂时性介质,该计算机程序代码在被装置900执行时,使得装置900至少执行在上文中在空间音频处理装置100、300、400a、400b、600a、600b或其一个或多个组件的上下文中描述的操作、过程和/或功能中的至少一些。计算机可读非暂时性介质可以包括存储设备或记录介质,诸如CD-ROM、DVD、蓝光光盘、或有形地体现计算机程序的其他制品。作为另一示例,计算机程序可被提供为被配置为可靠地传送计算机程序的信号。
不应将对处理器的提及理解为仅涵盖可编程处理器,还可以涵盖专用电路,诸如现场可编程门阵列(FPGA)、专用电路(ASIC)、信号处理器等。在上述说明中描述的特征也可通过明确描述的组合以外的其他组合来使用。
虽然已经参考某些特征描述了一些功能,但是这些功能也可通过其他特征来执行,无论是否描述。虽然已经参考某些实施例描述了一些特征,但是这些特征也可在其他实施例中提供,无论是否描述。

Claims (24)

1.一种用于处理表示音频场景的空间音频信号的方法,其中,所述空间音频信号是可控的并且与至少两个观看方向相关联,所述方法包括:
接收焦点方向和焦点量;
通过修改所述音频场景来处理所述空间音频信号,以便根据所述焦点量至少部分地控制所述空间音频信号的一部分在所述焦点方向上的加重;以及
输出处理后的空间音频信号,其中,修改后的音频场景至少部分地使能所述空间音频信号的所述一部分根据所述焦点量在所述焦点方向上的加重。
2.根据权利要求1所述的方法,其中,处理所述空间音频信号包括:至少部分地增大所述空间音频信号的所述一部分在所述焦点方向上的加重。
3.根据权利要求1或2所述的方法,其中,处理所述空间音频信号包括:至少部分地减小所述空间音频信号的所述一部分在除了所述焦点方向以外的方向上的加重。
4.根据权利要求1所述的方法,其中,处理所述空间音频信号包括:根据所述焦点量至少部分地增加所述空间音频信号的所述一部分在所述焦点方向上的声级。
5.根据权利要求1或4所述的方法,其中,处理所述空间音频信号包括:根据所述焦点量至少部分地降低所述空间音频信号的所述一部分在除了所述焦点方向以外的方向上的声级。
6.根据权利要求1至5中任一项所述的方法,其中,所述方法包括:将表示所述音频场景的输入空间音频信号处理成表示修改后的音频场景的输出空间音频信号,所述方法还包括:接收再现控制信息,以控制输出修改后的空间音频信号的至少一方面,
其中,处理所述空间音频信号包括:将所述输入空间音频信号处理成表示修改后的音频场景的中间空间音频信号,其中,根据所述焦点量来修改从所述焦点方向到达的声音的至少一部分的相对级别;以及
其中,输出修改后的空间音频信号包括:根据所述再现控制信息,将所述中间空间音频信号处理成所述输出空间音频信号。
7.根据权利要求6所述的方法,其中,所述输入空间音频信号和所述中间空间音频信号包括相应的全景环绕声信号,并且其中,将所述输入空间音频信号处理成所述中间空间音频信号包括针对一个或多个频率子带的以下操作:
从所述输入空间音频信号中提取表示从所述焦点方向到达的声音分量的单通道目标音频信号;
生成焦点空间音频信号,其中,所述目标音频信号被设置在由所述焦点方向定义的空间位置中;以及
将所述中间空间音频信号创建为所述焦点空间音频信号和所述输入空间音频信号的线性组合,其中,所述焦点空间音频信号和所述输入空间音频信号中的至少一个通过基于所述焦点量而得到的相应的缩放因子来缩放,以增加所述声音在所述焦点方向上的相对级别。
8.根据权利要求7所述的方法,其中,提取所述单通道目标音频信号包括:
应用波束成形器以从所述输入空间音频信号中得到波束成形信号,所述波束成形信号表示从所述焦点方向到达的声音分量;以及
应用后滤波器以基于所述波束成形信号来得到所述目标音频信号,从而调整所述波束成形信号的频谱以匹配从所述焦点方向到达的声音的频谱。
9.根据权利要求7或8所述的方法,其中,所述输入空间音频信号和所述中间空间音频信号包括相应的一阶全景环绕声信号。
10.根据权利要求6所述的方法,其中,所述输入空间音频信号和所述中间空间音频信号包括相应的参数空间音频信号,其中,参数空间音频信号包括一个或多个音频通道以及空间元数据,其中,所述空间元数据包括针对多个频率子带的相应的方向指示和能量比参数,
其中,将所述输入空间音频信号处理成所述中间空间音频信号包括以下操作:
针对一个或多个频率子带,计算所述焦点方向与针对所述输入空间音频信号的相应的频率子带而指示的方向之间的相应的角度差;
通过使用角度差的预定义函数和基于所述焦点量而得到的缩放因子,基于针对相应的频率子带而计算的角度差,得到针对所述一个或多个频率子带的相应的增益值;
针对所述中间空间音频信号的一个或多个频率子带,基于所述输入空间音频信号的相应的频率子带的能量比参数和所述增益值,计算相应的更新定向能量值;
针对所述中间空间音频信号的所述一个或多个频带,基于所述输入空间音频信号的相应的频率子带的能量比参数和所述缩放因子,计算相应的更新环境能量值;
基于更新定向能量除以更新定向能量和更新环境能量之和,计算针对所述中间空间音频信号的所述一个或多个频率子带的相应的修改后的能量比参数;
基于更新定向能量和更新环境能量之和,计算针对所述中间空间音频信号的所述一个或多个频率子带的相应的频谱调整因子;以及
组成所述中间空间音频信号,所述中间空间音频信号包括所述输入空间音频信号的所述一个或多个音频通道、所述输入空间音频信号的所述方向指示、所述修改后的能量比参数、以及所述频谱调整因子。
11.根据权利要求6所述的方法,其中,所述输入空间音频信号和所述中间空间音频信号包括相应的参数空间音频信号,其中,参数空间音频信号包括一个或多个音频通道以及空间元数据,其中,所述空间元数据包括针对多个频率子带的相应的方向指示和能量比参数,
其中,将所述输入空间音频信号处理成所述中间空间音频信号包括以下操作:
针对一个或多个频率子带,计算所述焦点方向与针对所述输入空间音频信号的相应的频率子带而指示的方向之间的相应的角度差;
通过使用角度差的预定义函数和基于所述焦点量而得到的缩放因子,基于针对相应的频率子带而计算的角度差,得到针对所述一个或多个频率子带的相应的增益值;
针对所述中间空间音频信号的一个或多个频率子带,基于所述输入空间音频信号的相应的频率子带的能量比参数和所述增益值,计算相应的更新定向能量值;
针对所述中间空间音频信号的所述一个或多个频带,基于所述输入空间音频信号的相应的频率子带的能量比参数和所述缩放因子,计算相应的更新环境能量值;
基于更新定向能量除以更新定向能量和更新环境能量之和,计算针对所述中间空间音频信号的所述一个或多个频率子带的相应的修改后的能量比参数;
基于更新定向能量和更新环境能量之和,计算针对所述中间空间音频信号的所述一个或多个频率子带的相应的频谱调整因子;
在所述一个或多个频率子带中,通过将所述输入空间音频信号的所述一个或多个音频通道中的相应音频通道的相应频带乘以针对相应的频率子带而得到的频谱调整因子,得到一个或多个增强音频通道;
组成所述中间空间音频信号,所述中间空间音频信号包括所述一个或多个增强音频通道、所述输入空间音频信号的所述方向指示、以及所述修改后的能量比参数。
12.根据权利要求6所述的方法,其中,所述输入空间音频信号和所述中间空间音频信号包括相应的根据第一预定义扬声器配置的多通道扬声器信号,并且其中,将所述输入空间音频信号处理成所述中间空间音频信号包括以下操作:
计算所述焦点方向与针对所述输入空间音频信号的相应的通道而指示的扬声器方向之间的相应的角度差;
通过使用角度差的预定义函数和基于所述焦点量而得到的缩放因子,基于针对相应的通道而计算的角度差,得到针对所述输入空间音频信号的每个通道的相应的增益值;
通过将所述输入空间音频信号的相应的通道乘以针对相应的通道而得到的增益值,得到一个或多个修改后的音频通道;以及
提供所述修改后的音频通道,作为所述中间空间音频信号。
13.根据权利要求10至12中任一项所述的方法,其中,所述角度差的预定义函数产生增益值,所述增益值随着角度差的值的减小而增大,并且随着角度差的值的增大而减小。
14.根据权利要求7至13中任一项所述的方法,还包括:
基于所述焦点量,得到缩放增益,所述缩放增益的值在预定义的最小值和最大值之间,以使得所述缩放增益的值随着所述焦点量的值的增大而增大,并且所述缩放值随着所述焦点量的值的减小而减小。
15.根据权利要求6至10中任一项所述的方法,其中,所述中间空间音频信号包括全景环绕声信号,所述输出空间音频信号包括双通道双耳信号,其中,所述再现控制信息包括定义关于所述音频场景的收听方向的再现定向的指示,并且其中,将所述中间空间音频信号处理成所述输出空间音频信号包括以下操作:
生成依赖于所指示的再现定向的旋转矩阵;
将所述中间空间音频信号的通道与所述旋转矩阵相乘,以得到旋转的空间音频信号;
使用预定义的一组有限脉冲响应FIR滤波器对来对所述旋转的空间音频信号的通道进行滤波,所述预定义的一组FIR滤波器对是基于头部相关脉冲响应函数HRTF或头部相关脉冲响应HRIR的数据集而生成的;以及
将所述双耳信号的左通道和右通道生成为针对所述左通道和右通道中的相应一个而得到的旋转的空间音频信号的滤波后通道之和。
16.根据权利要求10所述的方法,其中,所述输出空间音频信号包括双通道双耳音频信号,其中,所述再现控制信息包括定义关于所述音频场景的收听方向的再现定向的指示,并且其中,将所述中间空间音频信号处理成所述输出空间音频信号包括以下操作:
在所述一个或多个频率子带中,通过将所述中间空间音频信号的所述一个或多个音频通道中的相应音频通道的相应频带乘以针对相应的频率子带而接收的频谱调整因子,得到一个或多个增强音频通道;以及
根据所指示的再现定向,将所述一个或多个增强音频通道转换成所述双通道双耳音频信号。
17.根据权利要求11所述的方法,其中,所述输出空间音频信号包括双通道双耳音频信号,其中,所述再现控制信息包括定义关于所述音频场景的收听方向的再现定向的指示,并且其中,将所述中间空间音频信号处理成所述输出空间音频信号包括以下操作:
根据所指示的再现定向,将所述一个或多个增强音频通道转换成所述双通道双耳音频信号。
18.根据权利要求12所述的方法,其中,所述输出空间音频信号包括双通道双耳信号,其中,所述再现控制信息包括定义关于所述音频场景的收听方向的再现定向的指示,并且其中,将所述中间空间音频信号处理成所述输出空间音频信号包括以下操作:
选择依赖于所指示的再现定向的一组头部相关传递函数HRTF;以及
使用所选择的一组HRTF来将所述中间空间音频信号的通道转换成传送旋转的音频场景的所述双通道双耳信号。
19.根据权利要求12所述的方法,其中,所述再现控制信息包括第二预定义扬声器配置的指示,所述输出空间音频信号包括根据所述第二预定义扬声器配置的多通道扬声器信号,并且其中,将所述中间空间音频信号处理成所述输出空间音频信号包括以下操作:
使用幅度平移,基于所述中间空间音频信号的通道,得到所述输出空间音频信号的通道,包括:得到转换矩阵,所述转换矩阵包括提供从所述第一预定义扬声器配置到所述第二预定义扬声器配置的映射的幅度平移增益;以及使用所述转换矩阵来乘以所述中间空间音频信号的通道,以得到所述输出空间音频信号的通道。
20.根据权利要求1至19中任一项所述的方法,包括:
从包括至少一个运动传感器的传感器装置接收焦点输入,其中,所述焦点输入包括用户的手臂正指向的方向的指示和所述用户的前臂与上臂之间的角度的指示;
基于用户的手臂正指向的方向,得到所述焦点方向;以及
基于所述用户的前臂与上臂之间的角度,得到所述焦点量。
21.根据权利要求1至19中任一项所述的方法,包括:
接收焦点输入,所述焦点输入包括用户的观看方向的指示;
以预定义的时间间隔跟踪所述观看方向;
记录所述观看方向的连续观察之间的观察方向的绝对角度变化;
基于在预定义的时间段内记录的观看方向的绝对角度变化的总和或平均值,计算变化速度度量;
基于所述变化速度度量,得到焦点量,以使得所述焦点量随着变化速度的减小而增大,并且所述焦点量随着变化速度的增大而减小;以及
基于当前的观看方向,得到所述焦点方向。
22.一种用于处理表示音频场景的空间音频信号的装置,其中,所述空间音频信号是可控的并且与至少两个观看方向相关联,所述装置包括:
用于接收焦点方向和焦点量的部件;
用于通过修改所述音频场景来处理所述空间音频信号,以便根据所述焦点量至少部分地控制所述空间音频信号的一部分在所述焦点方向上的加重的部件;以及
用于输出处理后的空间音频信号的部件,其中,修改后的音频场景至少部分地使能所述空间音频信号的所述一部分根据所述焦点量在所述焦点方向上的加重。
23.一种用于处理表示音频场景的空间音频信号的装置,其中,所述空间音频信号是可控的并且与至少两个观看方向相关联,所述装置被配置为:
接收焦点方向和焦点量;
通过修改所述音频场景来处理所述空间音频信号,以便根据所述焦点量至少部分地控制所述空间音频信号的一部分在所述焦点方向上的加重;以及
输出处理后的空间音频信号,其中,修改后的音频场景至少部分地使能所述空间音频信号的所述一部分根据所述焦点量在所述焦点方向上的加重。
24.一种用于处理表示音频场景的空间音频信号的装置,其中,所述空间音频信号是可控的并且与至少两个观看方向相关联,所述装置包括至少一个处理器以及存储有计算机程序代码的至少一个存储器,所述计算机程序代码在由所述至少一个处理器执行时使得所述装置:
接收焦点方向和焦点量;
通过修改所述音频场景来处理所述空间音频信号,以便根据所述焦点量至少部分地控制所述空间音频信号的一部分在所述焦点方向上的加重;以及
输出处理后的空间音频信号,其中,修改后的音频场景至少部分地使能所述空间音频信号的所述一部分根据所述焦点量在所述焦点方向上的加重。
CN201980066261.4A 2018-08-24 2019-08-02 用于处理空间音频信号的方法和装置 Active CN112806030B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1813846.1 2018-08-24
GB1813846.1A GB2591066A (en) 2018-08-24 2018-08-24 Spatial audio processing
PCT/FI2019/050575 WO2020039119A1 (en) 2018-08-24 2019-08-02 Spatial audio processing

Publications (2)

Publication Number Publication Date
CN112806030A true CN112806030A (zh) 2021-05-14
CN112806030B CN112806030B (zh) 2022-11-11

Family

ID=63715102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980066261.4A Active CN112806030B (zh) 2018-08-24 2019-08-02 用于处理空间音频信号的方法和装置

Country Status (5)

Country Link
US (1) US11523241B2 (zh)
EP (1) EP3841763A4 (zh)
CN (1) CN112806030B (zh)
GB (1) GB2591066A (zh)
WO (1) WO2020039119A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114173256A (zh) * 2021-12-10 2022-03-11 中国电影科学技术研究所 一种还原声场空间及姿态追踪的方法、装置和设备
CN114463584A (zh) * 2022-01-29 2022-05-10 北京百度网讯科技有限公司 图像处理、模型训练方法、装置、设备、存储介质及程序
CN114173256B (zh) * 2021-12-10 2024-04-19 中国电影科学技术研究所 一种还原声场空间及姿态追踪的方法、装置和设备

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10735882B2 (en) * 2018-05-31 2020-08-04 At&T Intellectual Property I, L.P. Method of audio-assisted field of view prediction for spherical video streaming
US20200402523A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Psychoacoustic audio coding of ambisonic audio data
GB2611800A (en) * 2021-10-15 2023-04-19 Nokia Technologies Oy A method and apparatus for efficient delivery of edge based rendering of 6DOF MPEG-I immersive audio
GB2620593A (en) * 2022-07-12 2024-01-17 Nokia Technologies Oy Transporting audio signals inside spatial audio signal
GB2620960A (en) * 2022-07-27 2024-01-31 Nokia Technologies Oy Pair direction selection based on dominant audio direction

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020150254A1 (en) * 2001-01-29 2002-10-17 Lawrence Wilcock Audio user interface with selective audio field expansion
US20100040238A1 (en) * 2008-08-14 2010-02-18 Samsung Electronics Co., Ltd Apparatus and method for sound processing in a virtual reality system
WO2013093187A2 (en) * 2011-12-21 2013-06-27 Nokia Corporation An audio lens
US20150055808A1 (en) * 2013-08-23 2015-02-26 Tobii Technology Ab Systems and methods for providing audio to a user based on gaze input
WO2017178309A1 (en) * 2016-04-12 2017-10-19 Koninklijke Philips N.V. Spatial audio processing emphasizing sound sources close to a focal distance

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1227392A2 (en) * 2001-01-29 2002-07-31 Hewlett-Packard Company Audio user interface
CN101263734B (zh) 2005-09-02 2012-01-25 丰田自动车株式会社 麦克风阵列用后置滤波器
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
JP5198530B2 (ja) 2010-09-28 2013-05-15 株式会社東芝 音声付き動画像呈示装置、方法およびプログラム
US9301069B2 (en) 2012-12-27 2016-03-29 Avaya Inc. Immersive 3D sound space for searching audio
CN106537941B (zh) 2014-11-11 2019-08-16 谷歌有限责任公司 虚拟声音系统和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020150254A1 (en) * 2001-01-29 2002-10-17 Lawrence Wilcock Audio user interface with selective audio field expansion
US20100040238A1 (en) * 2008-08-14 2010-02-18 Samsung Electronics Co., Ltd Apparatus and method for sound processing in a virtual reality system
WO2013093187A2 (en) * 2011-12-21 2013-06-27 Nokia Corporation An audio lens
US20150055808A1 (en) * 2013-08-23 2015-02-26 Tobii Technology Ab Systems and methods for providing audio to a user based on gaze input
US20160132289A1 (en) * 2013-08-23 2016-05-12 Tobii Ab Systems and methods for providing audio to a user based on gaze input
WO2017178309A1 (en) * 2016-04-12 2017-10-19 Koninklijke Philips N.V. Spatial audio processing emphasizing sound sources close to a focal distance

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114173256A (zh) * 2021-12-10 2022-03-11 中国电影科学技术研究所 一种还原声场空间及姿态追踪的方法、装置和设备
CN114173256B (zh) * 2021-12-10 2024-04-19 中国电影科学技术研究所 一种还原声场空间及姿态追踪的方法、装置和设备
CN114463584A (zh) * 2022-01-29 2022-05-10 北京百度网讯科技有限公司 图像处理、模型训练方法、装置、设备、存储介质及程序

Also Published As

Publication number Publication date
EP3841763A4 (en) 2022-05-18
US20210337338A1 (en) 2021-10-28
US11523241B2 (en) 2022-12-06
EP3841763A1 (en) 2021-06-30
GB2591066A (en) 2021-07-21
CN112806030B (zh) 2022-11-11
WO2020039119A1 (en) 2020-02-27
GB201813846D0 (en) 2018-10-10

Similar Documents

Publication Publication Date Title
CN112806030B (zh) 用于处理空间音频信号的方法和装置
US11950085B2 (en) Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
WO2017005978A1 (en) Spatial audio processing apparatus
WO2013186593A1 (en) Audio capture apparatus
WO2018234628A1 (en) AUDIO DISTANCE ESTIMATING FOR SPATIAL AUDIO PROCESSING
CN112019993B (zh) 用于音频处理的设备和方法
CN113597776A (zh) 参数化音频中的风噪声降低
US20230096873A1 (en) Apparatus, methods and computer programs for enabling reproduction of spatial audio signals
JP2024028527A (ja) 音場関連レンダリング
EP3984252A1 (en) Sound field related rendering
US11483669B2 (en) Spatial audio parameters
WO2018193160A1 (en) Ambience generation for spatial audio mixing featuring use of original and extended signal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant